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Курс посвящен обзору состояния дел в области многоядерных процессоров. 
Представлены основные многоядерные процессоры и архитектуры, разработанные на 
конец 2009 года, кратко рассмотрены основные приемы программирования 
многоядерных систем. Материал курса составлен на основе статей и отчетов ряда 
экспертов, работах исследовательских групп, технических материалов и анонсов 
компаний-производителей. Описаны процессоры для широкого спектра систем и 
приложений — от микромощных встраиваем ых систем до серверных приложений. 

В данном курсе предпринята попытка создания общей картины развития 
многоядерных процессоров. Рассмотрены структуры процессоров различных классов, 
структура вычислительных ядер и связей между ними. Рассмотрены как процессоры, 
обозначаемые в иностранной литературе термином "тапу-соге ргосеззог", под 
которым понимается процес- сор, имеющий десятки или сотни вычислительных ядер в 
одиом кристалле, так и мультиядерные процессоры — "тшіб-соге ргосеѕѕ0тѕ", 
имеющие относительно небольшое количество ядер на кристалле. 


(с) ООО "ИНТУИТ,РУ", 2010-2016 
(с) Калачев А.В., 2010-2016 
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Предпо сылки, вызовы, модели мира современных 
высокопроизводительных выч ислений 


Лекция посвящена основным проблемам развития средств 
вычислительной техники и причинам, обусловливающим современный 
подход к построению микропроцессорных систем. 


По мере развития технических средств изменения окружающего мира, 
меняются потребности человека к производительности 
вычислительных систем, меняются и требования приложений. Одним 
из возможных решений является разработка и применение систем с 
массовым параллелизмом - кластеров, Сгій-систем, многопроцессорных 
комплексов, систем на многоядерных процессорах. 


Компьютерный мир все плотнее и плотнее объединяется с миром 
реальным. Данный процесс основывается на успехах 
полупроводниковой промышленности, расширении и удешевлении 
сетевых услуг, развитии беспроводных технологий связи, Появился 
специальный термин "все-проникающие компьютерные системы" - 
регуазме сотриіпа, Компью-тер перестал быть ЭВМ, электронной 
вычислительной машиной, и нео-жиданно выяснилось, что в своем 
первоначальном виде компьютер не вполне соответствует окружающей 
среде. Реальный мир во всех его про-явлениях параллелен, а 
современный компьютерный мир по своей при-роде последователен; 
данные передаются по последовательным каналам, команды 
выполняются одна за другой, и, как следствие, - любые попыт-ки 
распараллеливания и адаптации к условиям реального мира рождают 
чрезвычайно сложные и искусственные решения [1,2] 


Проблемы 


Одну из фундаментальных слабостей современных компьютеров вскрыл 
в 1977 году Джон Бэкус в речи, с которой он выступил при полу-чении 
Тьюринговской премии, С тех пор в ход пошло прозвучавшее в ней 
выражение "бутылочное горло фон Неймана", символизирующее собой 
органический недостаток архитектурной схемы, которая ассоциируется 
с именем Джона фон Неймана. Альтернативной архнтектурой является 
"гарвардская" архитектура, называемая так по имени машины Говарда 


а 
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Ай-кена Нагуага МагК І, где программы хранились на перфорированных 
лен-тах, а обрабатываемые данные - в релейных массивах. В 
современных микроконтроллерах перфоленты заменила память КОМ, 
реле - память ВАМ, но суть осталась прежней: в процессоре 
встречаются два независи-мых и не сдерживающих друг друга потока 
команд и данных. 


Происходит смена приоритетов при разработке процессоров, систем на 
их основе и, соответственно, программного обеспечения. Направле-ние 
смены приоритетов выражает мнение [1] Дэйва Паттерсона, профес- 
сора Калифорнийского университета в Беркли, изобретателя ВІЅС-про- 
цессоров и КАІР-массивов, который считает, что грядет новое время, 
кг-да перестанут действовать прежние прописные истины и им на 
смену придут новые, Однако переход этот осложняется наличием трех 
"стен", 


ы Энергетическая стена. Старая истина - энергия не стоит ничего, 
транзисторы дороги. Новая истина - дорога энергия, транзисто- 
ры не стоят ничего, 

• Стена памяти, Старая истина - память работает быстро, а опера- 
ции с плавающей запятой медленны. Новая истина - системную 
производительность сдерживает память, операции выполняются 
быстро. 

® Стена параллелизма на уровне команд. Старая истина - 
производи-тельность можно повысить за счет качества 
компиляторов и таких архитектурных усовершенствований, как 
конвейеры, внеочередное выполнение команд, сверхдлинное 
командное слово (Уегу Гоп Іпѕігисіпп У ога, УШМ), явный 
параллелизм команд (ЕхрісіШу Рага[е! Тизлюбип Согтриіпр, ЕРІС) и 
др. Новая истина - естест-венный параллелизм, команды 
допустимы и длинные, и короткие, но выполняются они 
параллельно, на разных ядрах, 


Выделяют также так называемую "стену ментальности" (едисабппа! ма). 

За время существования компьютеров сложилась определенная 

образовательная традиция. Вообще говоря, несовершенство и 

избыточная затратность современных компьютерных систем становится 

популярной темой для обсуждения. По мнению Билла Инмона, одного 

из создателей хранилищ данных, все современные решения для работы 
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с данными объединяет то, что стоимость функциональных компонентов 
(транзисторы, диски и т.д.) становится все менее значимой, а основная 


стоимость продуктов приходится на поддерживающую инфраструктуру. 


Помимо очевидных технологических претензий к фон-неймановской 
архнтектуре (излишияя сложность, неспособность к 
распараллеливанию, низкий коэффициент полезного использования 
транзисторов и тп.) есть еще одна группа претензий. Несколько 
десятилетий назад существовал повышенный интерес к искусственному 
интеллекту, делались прогнозы на возможности компьютеров с 
системами искусственного интеллекта. Ныне же на то, чтобы 
приспособить компьютеры для решения интеллектуальных задач, 
остались, в основном, языковые возможности, Многие прогнозы не 
оправдались. 


За последнее десятилетие удельная производительность процессоров в 
пересчете на число транзисторов упала на один-два порядка. 
Дальнейшее развитие полупроводниковых технологий по закону Мура 
не может компенсировать неэффективность современных процессоров. 
Диспропорцию между числом транзисторов на кристалле и удельной 
производительностью, которая выражена в скорости выполнения, 
отнесенной к площади, иногда называют "дефицитом Мура" (Мооге 
Сар). Показатели быстродействия процессоров (в частности, тактовые 
частоты) достигли практически граничных показателей, плотность 
энергии увеличивается пропорционально уменьшению размеров 
транзисторов, и, соответственно, увеличиваются проблемы с 
теплоотводом. 


Нетрудно прийти к выводу, что если нельзя использовать возможности 
закона Мура на одном ядре из-за исключительной сложности такого 
ядра, то следует пойти по пуги увеличения числа ядер. Именно так 
поступили в Ѕил Мктоѕуѕіетѕ, выпустив 8-адерный процессор М№іарага. 
Количественный рост, постулируемый законом Мура, предопределяет 
неизбежные перемены, и в какой-то момент количество должно 
перейти в качество. Сторонники ЕРІС-подхода также склонились к 
многоядерному решению. На форуме ТОЕ осенью 2004 года Пол 
Отеллини, генеральный директор Іпе!, заявил" Мы связываем наше 
будущее с многоядерными продуктами; мы верим, что это ключевая 
точка перегиба для всей индустрии ; : Это не гонка, Это радикальное 
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изменение в кмпьютинге, мы не имеем права рассматривать 
происходящее как простую технологическую гонку ". 


Мнения ведущих специалистов 


Настрой разработчиков процессоров можно оценить по следующим их 
словам [1], 


Ананд Агарвал, профессор Массачусетского технологического 
института, основатель компани “ТШега, выступая на конференции, 
посвященной проблемам современных процессоров, сказал следующее; 
"Процессоры становятся все более и более единообразными и 
обезличенными, критичнее становится система". "Процессор - это 
транзистор современности". 


Энди Бехтольсхайм ($ип Місгоѕуѕіетпѕ): "Больше нельзя рассматривать 
производительность как серьезное ограничение. Теперь тлавное 
ограничение - ввод-вывод, а производительность ввода-вывода 
невозможно поднять за счет простого увеличения плотности 
транзисторов", 


Журнал Юг, РоБЬ”ѕ Јошта!, август 2006 года: "Только подумайте: впервые 
в истории вычислительной техники массовые компьютеры не будут 
строиться на основе фон-неймановской архитектуры - они стануг 
параллельными. Наши приложения смогут одновременно выполняться 
на нескольких адрах. Такой переход сулит огромные возможности, но и 
потребует много усилий. Конечно, принцип параллельных вычислений 
не является каким-либо новшеством. Их исследовали многие из 
специалистов, упомянутых ранее. Такие компании, как Сгау, 
занимаются параллелизмом уже много лет. Но большинство 
программистов, создающих приложения для массовых вычислительных 
систем, не использовали эту технологию повседневно. Только сейчас 
начинается процесс переноса принципов многопоточности и 
параллелизма в область массового программирования", 


Можно говорить о двух заметно разнящихся между собой тенденциях в 
процессе увеличения числа адер. Одна носит название мультиядерность 
(тшіі-соге). В этом случае предполагается, что ядра являются 
высокопроизводительными и их относительно немного; сейчас их 
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число - два-четыре, и согласно заюну Мура оно будет периодически 
удваиваться. Основных недостатков два: первый - высоюе 
энергопотребление, второй - высокая сложность чипа и, как следствие, 
низкий процент выхода готовой продукции. При производстве 8- 
ядерного процессора ІВМ СеЙ только 20% производимых кристаллов 
являются годными. Другой путь - многоядерность (тапу-соге), В таком 
случае на кристалле собирается на порядок большее число адер, но 
имеющих более простую структуру и потребляющих миливатты 
мощиости. Сейчас количество ядер варьируется от 40 до 200, и если 
закон Мура будет выполняться и для них, то можно ожидать появления 
процессоров с тысячами и десятками тысяч ядер, Данный подход 
попадает в категорию так называемых "разрушительных инноваций" 
(Яіѕгирііме іппоуайпл). Ни одна из современных школ программирования 
не в состоянии справиться с грядущими проблемами, Неслучайно на 
суперюмпьютерной конференции, прошедшей в Дрездене в 2007 году, 
один из центральных докладов назывался "Развал системы 
традиционных знаний в многоядерную эру Все что вы знаете - 
неверно". 


Очевидно, что увеличение в десятки и сотни раз числа все тех же фон- 
неймановских адер на одной подложке не является панацеей, В одном 
из интервью Дональд Кнуг сказал по поводу упрощенного подхода к 
увеличению числа ядер следующее: "Мне кажется, у проектировщиков 
процессоров иссякли идеи, и они хотят переложить ответственность за 
невозможность повышать производительность компьютеров в 
соответствии с законом Мура на тех, кто создает программы, Они 
предлагают процессоры, отлично работающие на отдельных тестах, но 
я не удивлюсь, что вся эта эпопея многоадерности закончится 
неменьшим провалом, чем КЌапішт,где все выглядело прекрасным, пока 
не выяснилось, что компиляторы Е, соответствующими ему 
возможностями предвидения невозможно написать. 


Сколью вы знаете программистов, относящихся с энтузиазмом к 
будущим многоадерным процессорам? У всех, кого я знаю, они лишь 
вызывают огорчение, хотя разработчики процессоров говорят, что я 
неправ Я знаю приложения, адаптируемые к параллельному 
исполнению; это графический рендеринг, сканирование изображений, 
моделирование биологических и физических процессов, но все они 
требуют подходов, которые чрезвычайно специализированы. Моих 
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знаний хватило, чтобы написать о них в  "Искусстве 
программирования", но я считаю время, затраченное на них, 
потерянным, в этой области все быстро меняется, и совсем скоро 
написанное мной никому не будет нужным. Мультиадерность в том 
виде, как ее представляют, сейчас не прибавляет мне счастья", 


Многоядерные процессоры, если все сводится к размещению большего 
числа классических простых ядер на одной подложке, нельзя 
воспринимать как решение всех проблем. Их чрезвычайно сложно 
программировать, они могут быть эффективны толью на приложениях, 
обладающих естественной многопоточностью. 


На конференции Но СЫрз, которая прошла в Стэнфордском 
университете в конце августа 2009 года, производители рассказали о 
своих планах по выпуску восьмиядерных серверных процессоров [4], 


Традиционным средством повышения производительности 
процессоров всегда было увеличение тактовой частоты, но рост 
потребления энергии и проблемы с отводом тепла заставили 
разработчиков вместо этого наращивать количество адер. 


Представители ІВМ впервые подробно рассказали об архитектуре 
Ромег7, которая приходит на смену представленной два года назад 
Роуегб, предназначавшейся для (піх-серверов корпорации. Архитектура 
Роуғег7 является для ІВМ заметным шагом вперед. От двухьядерных 
моделей корпорация переходит к четырем, шести и восьми ядрам, и 
каждое из них способно выполнять четыре потока команд 
одновременно, 


Процессоры Ромег7 должны выйти в первой половине 2010 года. Они 
будут изготавливаться по 45-нанометровому технологическому процессу 
и, как утверждают в ІВМ, их можно будет устанавливать в нынешних 
серверах моделей Ромег 570 и Ромег 595. 


Инженеры Ецјіѕи рассказали о восьмиядерном процессоре 5РАВС64 - 

новой версии выпущенного в июле прошлого года четырехъядерного 

процессора $РАВС64 УП. Об этом процессоре, получившем кодовое 

наименование Мепиѕ, вкратце упоминалось в докладе на конференции 

Но СЫрз 2008 года, но никаких подробностей не приводилось. 

Процессоры $5РАВС64 используются в серверах Ецјїѕши и би 
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Місгоѕуѕіетѕ (правда, планы последней в свете слияния с Огасе 
повисли в воздухе). 


Представители АМП сделали доклад о применении в лезвийных 
серверах процессоров Марпу-Сошѕ. Это 12-ядерные процессоры, 
которые объединяют на одной микросхеме два шестиядерных 
процессора, соединенных шиной АМР Нурег Тгапѕрогі. Название им 
взяли у известной гоночной трассы во Франции. Выход Марпу-Сошѕ 
запланирован на начало 2010, 


Специалисты Ши! сообщили о работе над восьмиядерными 
двухпоточными процессорами Мећајеш-ЕХ, выход которых назначен на 
первую половину 2010 года. Но о Тикміа - четырехьадерной версии 
процессора Напішт - в их докладе сказано не было. Его появление уже 
несколько раз откладывалось и теперь ожидается в будущем году; 


Но вопрос в том, в каюй степени современное программное 
обеспечение - и, следовательно, юнечные пользователи - способно 
использовать возможности многоядерных процессоров. Приложения 
должны быть написаны так, чтобы решаемые ими задачи можно было 
разбивать на подзадачи, выполняемые на нескольких ядрах 
параллельно. 


Аналитик компании Сагпег Карл Кланч в январе подготовил 
пессимистический доклад на эту тему Производители процессоров, 
пишет он, вывели количество ядер далек за тот уровень, для которого 
были разработаны основные программные средства - операционные 
системы, инструментарий промежуточного слоя, приложения, 
виртуализационные средства и т. д. 


Большая часть современных программных систем, считает Кланч, 
обладает ограничениями, которые не дадуг им воспользоваться всеми 
имеющимися ядрами. Пользователям же, чтобы угнаться за развитием 
аппаратной платформы, придется чаще обновлять программное 
обеспечение, 


Аналогичное мнение выразили в июне аналитики ГОС. За некоторыми 
исключениями, считают они, производительность большинства 
современных приложений при наличии свыше четырех логических 
процессоров стагиирует. 


10 


Калачев А.В Многоядерные процессоры 
Другие смотрят на вещи более оптимистично. Большая часть программ, 
для которых важна производительность процессора, полагают они, на 
сегодняшний день уже параллелизована, потому что их разрабатывали в 
расчете на кластеры серверов или на крупные системы $МР- 
архитектуры со множеством процессоров, 


"Не думаю, что это станет препятствием, и любой, кто так думает, 
вероятно, слишком пессимистичен", - считает аналитик Натан Бруквуд 
из компании 115164 [4]. 


Одной из наиболее интересных точек зрения на происхождение "стен" и 
других недостатков существующего компьютерного миропорядка 
обладает немецкий профессор Рейнер Хартенштайн, с 1977 года 
возглавляющий лабораторию Хршег ГаБ, одну из немногих, где 
занимались тематикой, связанной с реконфигурируемым компьютингом 


(Весопйвига Ме Согтрийпр). 


Профессор Хартенштайн - автор таких терминов, как "антимашина" 
(апіі-гтасћіпе), "конфигурируемое аппаратное обеспечение" (сопірмаге), 
"структурное проектирование аппаратного обеспечения" (5ітосішей 
Багдмғаге деѕірл) и ряда других, Хартенштайн является создателем КАВГ, 
новаторского языка для проектирования аппаратного обеспечения. 
Реконфигурирование - это перепрограммирование аппаратуры; 
теоретически его можно применять к массивам, собранным из ядер с 
фон-неймановской архитектурой, но гораздо перспективнее - к ядрам, 
представляющим собой антимашины. Рамамути в ряде своих работ 
показал, что чаще всего компьютеры с массовым параллелизмом, 
содержащие тысячи и десятки тысяч процессоров, оказываются менее 
продуктивными, чем ожидается при их проектировании. Основные 
причины этого эффекта, называемого самим Рамамути 
"суперкомпьютерным кризисом", - наличие "стены памяти" и сложность 
программирования параллельных задач, что тоже является следствием 
фон-неймановской архитектуры. Главный вывод Хартенштайна состоит 
в том, что и энергетическая стена, и стена памяти, и стена 
параллелизма на уровне команд являются прямым следствием фон- 
неймановской архитектуры. Из-за технологических ограничений 
Джоном фон Нейманом была избрана схема, в основе которой лежит 
управляемый поток команд, программа, выбирающая необходимые для 
команд данные, Этим определяется канонический состав архитектурных 
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компонентов, составляющих любой компьютер, - счетчик команд, код 
операции и адреса операндов; он остается неизменным по сей день, Все 
мыслимые и немыслимые усовершенствования архитектуры фон 
Неймана в конечном счете сводятся к повышению качества управления 
потоком команд, методам адресации данных и команд, кэшированию 
памяти и т.п. При этом последовательная архитектура не меняется, но 
сложность ее возрастает. Очевидно, что представление о компьютере 
как об устройстве, выполняющем заданную последовательность команд, 
лучше всего подходит для тех случаев, когда объем обрабатываемых 
данных невелик, а данные являются статическими. Нов современных 
условиях приходится сталкиваться с приложениями, где относительно 
небольшое количество команд обрабатывает потоки данных. В таком 
случае целесообразно предположить, что компьютером может быть и 
устройство, которое имеет каким-то образом зашитые в него алгоритмы 
и способно обрабатывать потоки данных. Такие компьютеры могли бы 
обладать естественным параллелизмом, а их программирование свелось 
бы к распределению функций между большим числом ядер. 


Возможные пути обхода проблем 


Можно допустить существование следующих альтернативных схем. 
Одна, фон-неймановская, предполагает, что вычислительным 
процессом управляет поток команд, а данные, в основном статичные, 
выбираются из каких-то систем хранения или из памяти, Вторая схема 
основывается на том, что процессом вычислений управляют входные 
потоки данных, которые на входе системы попадают в подготовленную 
вычислительную инфраструктуру, обладающую естественным 
параллелизмом. С точки зрения реализации первая схема гораздо 
проще, кроме того, она универсальна, программы компилируются и 
записываются в память, а вторая требует специальной сборки нужной 
дпя определенной задачи аппаратной конфигурации. Вторая схема 
старше; пример тому - табуляторы, изобретенные Германом Холлеритом 
ис успехом использовавшиеся на протяжении нескольких десятилетий. 
Корпорация ІВМ достигла своего могущества и стала одной из самых 
влиятельных компаний в США, производя электромеханические 
табуляторы для обработки больших массивов информации, не 
требующей выполнения логических операций, Их программирование 
осуществлялось посредством коммутации на пульте, а далее устройство 
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управления в соответствии с заданной программой координировало 
работу остальных устройств, 


Универсальный 
генератор 
адресов 
(счетчик 
данных) 


Рис. 1.1. Антимашина 


От машины фон Неймана антимашина [1] отличается наличием одного 
или нескольких счетчиков данных, управляющих потоками данных, Она 
программируется с использованием потокового обеспечения (Еюммаге), 
а роль центрального процессора в ней играют один или несколько 
процессоров данных (Раа Раф Ой, ПРО). Центральной частью 
антимашины может стать память с автоматической 
последовательностью (Ашо-Ѕедиепсе Мепюгу) (рис. 1.1). 


Асимметрия между машиной и антимашиной наблюдается во всем, за 
исключением того, что антимашина допускает параллелизм внутренних 
циклов, а это значит, что в ней решается проблема параллельной 
обработки данных. В антимашине доступ к памяти обеспечивается не 
по адресу команды или фрагмента данных, записанному в 
соответствующий регистр, а посредством универсального генератора 
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адресов (Сепегіс АЯ@гез$ Сепегаюг, САС). Его преимущество в том, что 
он позволяет передавать блоки и потоки данных. В то же время 
компиляция, посредством которой создается специализированная под 
определенную задачу система, заключается в объединении нужного 
количества настроенных процессоров данных в общий массив (Оаа 
Ргосез$ Аггау, РРА), на котором выполняются алгоритмы Е1очғуаге и 
который может быть реконфигурируемым, 


Методология САС непоследовательна, а потому обладает такими 
достоинствами, как возможность работы с двумерными адресами, что 
дает неоспоримые преимущества при работе с видеоданными и при 
выполнении параллельных вычислений, Счетчик данных (даа сошлег) - 
альтернатива счетчику команд в машине фон Неймана; его содержимым 
управляет Ею\луаге, Для новой методологии придумано и новое 
название - іміл.рагайірт; оно отражает симбиоз вычислительных ядер 
двух классов как обычных центральных процессоров, построенных по 
фон-неймановской схеме, так и процессоров данных, реализующих 
антимашины, 


Главные отличия антимашины от машины фон Неймана в том, что 
антимашина по природе своей параллельна и к тому же нестатична - ее 
нужно программировать индивидуально, а не просто загружать 
различные программы в универсальную машину Существуют 
наработки, которые хотя бы могут дать представление о том, как и из 
чего можно собрать антимашину Реализовать ее можно средствами 
реконфигурируемого компьютинга, 


Теоретически возможно существование трех подходов к созданию 
реконфигурируемых процессоров. 


Специализированные процессоры (Аррісайол-$ресійс Ѕ‹апдага 
Ргосеѕѕог). Процессоры, имеющие набор команд, адаптированный к 
определенным приложениям, 


Конфигурируемые процессоры (СопйригаЫе Ргосеѕѕог). Своего рода 
"заготовки" для создания специализированных процессоров, содержат в 
себе необходимый набор компонентов, адаптируемый к требованиям 
приложений. В таком случае проектирование специализированного 
процессора оказывается проще, чем с чистого листа. 
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Динамические реконфигурируемые процессоры (РупаписаЙу 
ВесопйвигаМе Ргосеззог). Процессоры, содержащие стандартное ядро и 
расширяющее его возможности устройство, которое может быть 
запрограммировано в процессе исполнения; обычно это бывает 
программируемая логическая матрица (Ее РговгапгиаМе Сае-Агтау, 
ЕРСА), 


В качестве еще одного пути развития вычислительных средств, 
сочетающего в себе и переход к параллельным системам и процессорам, 
и управление данными, можно назвать постепенный переход к 
системам на базе или с применением искусственного интеллекта. 
Действительно, если рассмотреть традиционное сравнение 
характеристик систем искусственного интеллекта с традиционными 
программными системами, видно, что в них подразумевается и 
адаптивность структуры, и высокий уровень параллелизма - таким 
образом, есть потенциальная возможность наиболее полно 
использовать возможности многоядерных архитектур (таблица 1.1 [3]). 


Также следует отметить, что интерес к системам на базе искусственного 
интеллекта (ИИ) возрос - это связано отчасти и с успехами в области 
полупроводниковой техники, позволяющими получать достаточно 
компактные устройства, которые имеют достаточно ресурсов для 
поддержания приложений ИИ. Одним из направлений ИИ, близкого по 
структуре к параллельным системам, являются искусственные 
нейронные сети, которые обладают рядом свойств, делающих их 
незаменимыми во многих приложениях, Применительно к задачам - это 
способность к обобщению, выявлению скрытых закономерностей, 
способность настраиваться на задачу отсутствие необходимости 
выстраивать аналитические модели, Применительно к организации 
вычислений - нейросети позволяют наиболее полно использовать 
аппаратные ресурсы системы (в частности, для параллельной системы 
возможна наиболее полная загрузка вычислительных ядер), 


Таблица 1.1. Сравнение свойств обычных ЭВМ и компьютеров для 
реализации экспертных систем 
Свойства компьютеров для 


Свойства обычных компьютеров 
экспертных систем 


Процедурно управляемый поток Поток вычислений, управляемый 


вычислений данными 
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Числовая обработка Символьная обработка. 
Рассуждения с расширяющимся Рассуждения с уменьтающимся 
множеством выводов множеством выводов 
е Архитектура, отличная от фон- 
Фон-неймановская архитектура р» УР г. фо 
неймановской 


Алгоритмическая обработка Эвристическая обработка. 


Обслуживание инженерами 
Обслуживание программистами нарий р 


Интерактивная и параллельная 
Последовательная обработка 


обработка 
Структурированный процесс Интерактивный процесс 
проектирования (линейный) проектирования (циклический) 


В настоящее время системы, реализующие нейронные сети, 
представляют большой интерес для науки и техники, поскольку 
способны сократить время решения ряда задач, предложить путь к более 
простой аппаратно-программной реализации. Основные задачи, в 
которых применение искусственных нейронных сетей считается 
перспективным - это распознавание объектов, человеческой речи, 
эффективное сжатие данных, медицинский и биометрический анализ 
образов, обработка теплового изображения, интеллектуальное 
управление, экономическое прогнозирование, прогиозирование 
потребления электроэнергии, интеллектуальные антенны и ряд других, 


Краткие итоги 


Основные постулаты современного этапа развития вычислительной 
техники - повышение энергоэффективности и снижение общего 
энергопотребления; совершенствование подсистемы памяти с целью 
устранения "бутылочного горлышка" при операциях обращения к 
памяти; параллельное исполнение команд, возможно, на разных ядрах, 


В качестве специализированных направлений выделяют системы, 
управляемые данными; реконфигурируемые системы и процессы; 
системы на основе алгоритмов и принципов искусственного 
интеллекта. 
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Мнения специалистов, несмотря на разногласия в оценке 
эффективности существующего программного обеспечения, в целом за 
переход к процессорам со многими вычислительными ядрами, 


Контрольные вопросы 


1. В чем состоят проблемы выполнения закона Мура? 

2. Охарактеризуйте особенности использования современных 
вычислительных систем, 

3. Дайте оценку следующим параметрам микропроцессоров с точки 
зрения их развития; размер, энергопотребление, память, 
параллелизм. 


Упражнения 


1. Охарактеризуйте круг фундаментальных и прикладных проблем 
процессорной техники, 

2, Проследите основные тенденции развития микропроцессоров за 
последние 10 лет, 

3. Посмотрите характеристики энергопотребления современных 
приложений в различных областях. 
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Классификация современных приложений и 
многоядерных систем 


Дается приблизительное разбиение приложений на классы/кластеры в 
соответствии с их требованиями. Обсуждаются вопросы и подходы к 
классификации многоядерных процессоров. 


Сферы применения многоядерных процессоров 


Широкое внедрение многоядерных технологий позволяет по-новому 
взглянуть на вычислительные возможности компьютеров и порождает 
всплеск творческой активности по созданию инновационных решений. 
Разработчики клиентских приложений могуг исследовать новые 
способы применения многозадачности, которые в прошлом не имели 
практического значения или были сложны в реализкции. Например, 
важные системные задачи теперь могут выполняться постоянно — 
непрерывный и упреждающий поиск вирусов, автоматическое 
резервное копирование, гарантирующее сохранение всех рабочих 
файлов, интеллектуальная система мониторинга потоков работ, 
способная прогнозировать потребности пользователя и выдавать 
информацию в реальном времени по запросу С ростом 
распространения многоядерных клиентских ПК список полезных 
приложений, которые могут непрерывно выполняться в фоновом 
режиме, будет постоянно расти. 


Можно выделить несколько классов приложений, которые требуют 
значительных вычислительных ресурсов и могуг быть соотнесены с 
термином " НРС -приложения" [5], 


Приложения, обрабатывающие большие файлы данных; 


20/30 САПР; 

системы моделирования, средства работы с анимацией; 
средства обработки цифровых изображений; 

электронные издательские системы; 

средства видеомонтажа/рендеринга; 

компьютерные игры (на клиентских компьютерах и серверах); 
средства поиска/индексирования; 
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ә системы потокового мультимедиа; 
* средства защиты и криптографии, 


Приложения, нуждающиеся в увеличенном адресном пространстве 
ОЗУ; 


финансовое моделирование; 

научные и технические расчеты; 

исполняющиеся на сервере приложения, обслуживающие 
множество пользователей настольных машин, или тонких 
клиентов, 


Приложения, работающие с большими массами транзакций/ 
пользователей; 


» СУБД; 
• веб-серверы; 
• серверы электронной почты. 


Если рассмотреть данные классы приложений с точки зрения 
возможностей распараллеливания или организации многопоточного 
режима (таблица 2.1), можно получить пространство НРС-приложений 


(рис. 2.1) [6]. 


Было показано, что многоядерные процессоры позволяют существенно 
снизить потребление энергии при сохранении производительности. 
Это, в свою очередь, открывает новые области применения; 


• СУБД; 
• веб-серверы; 
® серверы электронной почты, 
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НЕ 
Объем обрабатываемых данных я 


$ -Комлитьиио припои. 
- окна грла 


Рис. 2.1. Приблизительная классификация задач 
высокопроизводительных вычислений 


Было показано, что многоядерные процессоры позволяют существенно 
снизить потребление энергии при сохранении производительности. 
Это, в свою очередь, открывает новые области применения: 


® компактные высокопроизводительные устройства с низким 
тепловым излучением; 

® серверные помещения, позволяющие снизить расход, 
электроэнергии и требования к кондиционированию воздуха; 

» решения для мобильных ПК с увеличенным временем 
автономной работы батарей; 

• решения для дома и офиса, реализация которых раньше была 
физически невозможна при использовании процессоров 
предыдущих поколений. 


Таблица 2.1. Характеристика приложений различных типов с точки зре 
параллельных систем [6] 


Облас т онные Па Мк 
т га Мер Зегукез Радиңибнны № 
приложений приложения Һоџѕе 
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мео Сервер раа р), ЗАРЗТ 055 (Е 
(уеь99) приложений (ТРС-С) (В) Н) 
(7В8В) 
т Веб- 
ры за  ОШР ЕВР ЕВР 055 
приложений сервер 
Параллелизм 
на уровне низкий низкий низкий средний низкий высокиі 
инструкций 
Параллелизм 
на уровне высокий высокий высокий высокий высокий высокиі 
потоков 
Отношение 


"Инструкции/ большое больпюе большое средний большюе большое 
Данные" 


Уровень 
общих низкий средний высокий средний высокий средний 
данных 


Обеспечение энергосберегающей производительности, основа которой 
= переход на многоядерные вычисления, принесет выгоды 
практически для всех платформ. 


По мере появления дополнительных вычислительных возможностей 
перед разработчиками откроются перспективы, лежащие далеко за 
пределами простого повышения быстродействия приложений. 
Голосовое управление, ІР-телефония и видеотелефония, новые 
электронные секретари, доступ к информации в реальном времени, 
расширенные возможности управления через ІР, многоуровневые 
функции поиска и извлечения данных, — вот лишь несколько примеров 
преимуществ, которые могут получить пользователи мощных 
вычислительных систем с быстрым реагированием. Эта программная 
экосистема готова к внедрению дополнительных инновационных 
моделей использования, охватывающих совершенно новые области, 


Основные классы многоядерных процессоров (тапу- 
соге, шШЯ-соге, МИМО, 51МО, $МР, ММР) 
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Как известно, наиболее распространенным подходом является 
распараллеливание "потока команд" и/или "(потока данных". 
Распараллеливание данных — это применение одной операции сразу к 
нескольким элементам массива данных. Параллелизм задач 
предусматривает разбиение вычислительного процесса на несколько 
самостоятельных подзадач (процессов, потоков), каждая из которых 
выполняется на своем ядре (процессоре). Многоядерные системы (в 
соответствии с классификацией Флинна) можно отнести к так 
называемым системам класса МІМР (МибрЕ Іпѕігисбоп — Моиніріе Раќа), 
в которых несколько программных ветвей выполняются одновременно 
и независимо друг от друга, но в определенные моменты времени 
обмениваются данными 


В основном представленные на сегодняшний день процессоры имеют 
МІМР-архитектуру; но есть также группа процессоров, построенных как 
5ІМРр -системы, — это так называемые потоковые или графические 
процессоры, 


Среди многоядерных процессоров к данному моменту можно выделить 
процессоры, предназначенные в основном для встраиваемых и 
мобильных приложений, в которых большое внимание разработчиков 
было уделено средствам и методам снижения энергопотребления, 
процессоры для вычислительных или графических станций, тде 
вопросы энергопотребления не столь критичны, процессоры и т. н. 
мейнстрима шнрокого назначения — нкцеленные на использование в 
серверных, рабочих станциях и персональных компьютерах. 


Также можно классифицировать многоядерные процессоры по 
архитектуре или структуре их ядер. 


Структура ядер важна с точки зрения программирования на нижнем 
уровне, в проектировании и оптимизации приложений, определяет 
возможности процессора в плане вычислений, Большннство 
многоядерных процессоров имеют в своей основе В1$С-ядра; конечно, 
есть центральная группа мощных процесссров с СІЅС-ядрами, 
встречаются и МІЅС-ядра, 


Возможна классификация и по энергопотреблению. Перед 
разработчиками многоядерных процессоров, как правило, помимо задач 


повышения производительности и эффективности процессора стоят 
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задачи уменьшения рассеиваемой мощности при малой загрузке 
процессора либо во время его простоя или ожидания результатов 
вычислений от ядер процессора. В этой классификации удобно 
выделить классы просто по абсолютному уровню потребляемой 
мощности и классы по способам управления энергопотреблением, 


Также необходимо предусмотреть доступ к разделяемой памяти и 
эффективные коммуникации между ядрами, 


Наличие внутрикристальной памяти и ее организация влияют на 
парадигму программирования, частоту обращений к внешней памяти, а 
также определяют способы синхронизации программ и данных. 


Одной из проблем, стоящих перед разработчиками приложений для 
многоядерных процессоров, — распределение или передача данных 
между ядрами. Среда передачи данных должна обладать шнрокой 
полосой пропускания, малыми временами задержки соединения и 
распространения данных. Пропускная способность среды передачи, ее 
топология повлияют на производительность процессора на 
многопоточных приложениях, будуг определять накладные расходы 
процессорного времени, задержки распространения данных. 


Внешние интерфейсы определяют возможности взаимодействия 
процессора с памятью, внешними устройствами, и возможности 
наращивания количества процессоров. 


При рассмотрении многоядерных процессоров в основном пользуются 
классификацией Флинна, принятой для параллельных систем, с той 
лишь разницей, что в качестве узлов или машнн выступают 
вычислительные ядра, находящиеся на одном кристалле или в одном 
корпусе, 


Стоит выделить также мультиядерные процессоры — в этом случае 
предполагается, что ядра являются высокопроизводительными и их 
относительно немного; и многоядерные процессоры — на кристалле 


располагается большое (от нескольких десятков до нескольких сотен) 
количество вычислительных ядер, имеющих более простую структуру 
объединенных некоторой сетевой инфраструктурой. 
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Крагкие итоги 


Можно выделить примерно пять типов приложений, в зависимости от 
их требований к вычислительной системе: обработка больших массивов 
данных; высокопроизводительные вычисления, в том числе в реальном 
времени; серверы приложений; веб-сервисы; вычислительные задачи, 


Одно из явных преимуществ при переходе на многоядерные 
процессоры — снижение энергопотребления, что в итоге сказывается 
на стоимости владения вычислительной системой, 


Основой при классификации многоядерных процессоров остается 
классификация Флинна для параллельных вычислительных систем, 


Контрольные вопросы 


1. Каковы основные классы современных приложений? 
2. Каковы основные признаки, применяющнеся при классификации 
многоядерных процессоров? 


Упражнения 


1. Оцените параметры прикладного программного обеспечения, 
наиболее часто вами используемого. 
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Высокопроизводительные многоядерные процессоры 
для встраиваемых приложений 


В лекции рассмотрены многоядерные процессоры компаний "Шега 
(Тіеб4/64Рго, Тіе-Сх) и Сіеагбрееі (С$Х700). Данные процессоры 
являются одними из интересных представителей многоядерных 
процессоров, имеют мощные средства разработки и отладки 
приложений, 


"Ячеистые" процессоры компании ТіЇега 


Процессоры Тће-64/64Рго 


Процессоры Тіе64[7-8-9] рассчитаны на применение в 
высокопроизводительном сетевом оборудовании, беспроводных 
телекоммуникационных системах, а также серверах для потоковой 
обработки видеоданных. Позволяют использовать во встраиваемых 
приложениях мощные вычислительные ресурсы при достаточно низких 
энергозатратах. 


Круг целевых задач для данных процессоров следующий. 


Процессоры способны работать в сетях с уровнем трафика порядка 10- 
20 Гб/с, обеспечивая поддержку следующих сервисов: 


обнаружение/предотвращение вторжений (П25ЛР$); 
общее управление рисками (ОТМ); 

анализ пакетов 4-7 уровней; 

мониторинг сети; 

планирование качества обслуживания (005). 


Мультимедиа-приложения, прежде всего включают цифровую 
обработку данных, легко замещая несколько цифровых сигиальных 
процессоров (ЦПС) или ЕРСА: 


* кодирование/декодирование видео; 
® потоковое и ІР-видео (ТРТУ); 
• диагиостика проблем; 
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® пост-обработка видеоданных, 


Применение в области беспроводных коммуникаций включает работу в 
существующих сетях СЅМ/СРМА и в сетях следующего поколения 
ММАХ & ГТЕ. Прежде всего, это; 


• базовые приемо-передающне станции (ВТ$); 
® контроллеры базовых станций (В$С); 
• шлюзы кампусной зоны (СС$М, $@5М, пед а раіемау). 


Процессор Т1е64 может быть оптимизирован для выполнения 
определенных задач. Теоретически Тіеб4 будет обеспечивать 
десятикратный прирост производительности по сравнению с 
серверным процессором | Хеоп при значительно меньшем 
энергопотреблении, 


Теб4Рго является процессором общего назначения с МІМР- 
архитектурой. Каждое ядро может работать и под управлением 
собственной операционной системы, и под управлением 
многопроцессорной системы типа ЗМР Гишх, соответственно, 
одновременно процессор может поддерживать различные приложения, 
к примеру, обработку видеокадров, шнфрование данных и обработку 
стека сетевых протоколов, 


Виртуальная память и технология Тйегаз Ми@соге НагамаЙ позволяет 
осуществлять защнту данных на уровне ядра, как для общей памяти, так 
и для потоков и сообщений пользовательского уровня, 


Процессор содержит 64 идентичных вычислительных ячейки (е), 
организованных в двумерный массив 8х8 (рис, 3.1) [8]. Ячейка является 
базовым блоком процессора и состоит из комбинации коммутатора и 
В15$С-ядра общего назначения. Каждое ядро представляет собой 
полноценный ВІЅС-процессор, работающий на частотах от 600 МГц до 
1 ГГц, и содержит кэшн первого и второго уровней (1.1, Г.2 сасће). 
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Рис. 3.1. Ячейка процессора Теб4 


Ядро имеет все основные возможности обычного процессора, такие 
как; 


полный доступ к памяти и портам ввода-вывода; 

виртуальная память и защнта данных (ММОЛТ.В); 

иерархический кэш с отдельными уровнями 1.1-Ги 1.1-0; 
многоуровневая система прерываний; 

трехканальный конвейер УШУ’, позволяющий выбирать З 
инструкции за цикл, 


Каждое из ядер процессора ТШеб4 имеет собственную кэш-память 
первого и второго уровней (рис. 3.2). При необходимости кэшн 11 и 1.2 
могут быть объединены для формирования общего кэша суммарным 
объемом в 5 Мб (рис, 3,3). Процессоры семейства ТиеРго поддерживают 
технологию когерентного кэша 'Пега'з ООС (Бупашс Обфиед Сасће) — 
динамический распределенный когерентный кэш, обеспечивающий в 
два раза большую производительность по сравнению с обычными 
многоядерными процессорами. 
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Рис, 3.2. Структура процессора Тђеб4 
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Рис, 3.3. Организация кэш-памяти 


Ядра оптимизированы для обеспечения наивысшей 
производительности при минимальном потреблении энергии. При 
работах на частотах между 500 и 1000 МГц энергопотребление 
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составляет 170-300 мВт в расчете на ядро для типичных приложений. 
Соответственно, суммарное энергопотребление процессора составляет 
около 20 Вт, 


Распределенный по ядрам когерентный кэш обеспечивает малое время 
задержки и большую емкость. Подсистема кэша состоит из 
высокопроизводительной двухуровневой неблокирующей иерархии 
кэшей. Двухуровневое решение изолирует кэш первого уровня (11- 
инструкций и 11-данных) от лишних операций обращения к памяти, 
сохраняя решение быстрым и энергоэффективным. Аппаратная 
предварительная выборка инструкций для кэша инструкций 11-1 
уменьшает частоту промахов кэша. Программируемый блок прямого 
доступа в память позволяет осуществлять объемные передачи данных. 
Архитектура процессора разработана таким образом, что отдельному 
ядру доступен распределенный по другим ядрам кэш. Такая организация 
когерентного кэша предусматривает аппаратный контроль за доступом к 
общей распределенной памяти, это и позволяет ядру иметь доступ к 
набору локальных кэшей всех остальных ядер, работая как кэш третьего 
уровня. 


Организованный данным образом кэш устраняет узкое место при 
доступе в глобальную внешнюю память — снижает частоту обращений. 


Система когерентности кэшей позволяет получить доступ к странице 
памяти, кэшированной одним из ядер, и к остальным ядрам процессора 
при помощн операций чтения/записи (аналогично обращению к 
собственному кэшу ядра). Фактически ядро, кэшируя данные для себя, 
кэширует их для всех остальных ядер, независимо от их потребности в 
этих данных, что повышает производительность процессора в целом. 


Техиология Ми соге Нага\маЙ позволяет пользователю выделить одно 
или несколько ядер в относительно независимую процессорную группу 
исключая коммуникации между выделенной группой и остальными 
ядрами, не включенными в группу Если пакет данных пересекает 
установленную границу группы, вызывается прерывание и управление 
передается гипервизору — небольшой программе исполнительного 
уровня для отслеживания и управления системными ресурсами. Это 
обеспечивает защнту данных приложения в многозадачной среде. 
Техиология Мивсоге Нагам’аЙ защищает множественные приложения и 
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операционные системы от непредвиденных взаимодействий и 
случайных ошибок (рис. 3.4), 


Сеть іМеѕ$ обеспечивает высокоскоростную передачу данных, 
необходимую для устранения узкого места системы и поддержки 
масштабирования приложений. іМеѕһ состоит из пяти отдельных 
подсетей. Две подсети управляются полностью аппаратно и 
используются для передачи данных между ядрами и памятью при 
промахах кэша или при прямом доступе в память. Три оставшиеся 
подсети доступны для приложений, позволяют осуществлять 
взаимодействие между ядрами и между ядрами и устройствами ввода- 
вывода. Для доступа к аппаратуре используется некоторое количество 
абстракций, например, потоковые каналы, аналогичные сокетам, или 
интерфейс передачи сообщений. Сеть ЇМеѕһ позволяет передавать 
данные без остановки приложений, выполняющихся на ядрах, Это 
позволяет осуществлять обмен данными между ядрами и осуществлять 
контроль и маршрутизацию для каждого сетевого соединения, включая 
буферизацию и контроль потока по всей сети (рис. 3.5). 
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Рис. 3.4. Выделение независимых групп процессорных ядер 


32 


Калачев А.В Многоядерные процессоры: 


‘процессорное ядро 


1-6 
р-тіВ 


ячейка 


Рис. 3.5. Коммутатор сети іМеѕћ 


Коммутатор, расположенный возле ядра, является неблокируемым и 
подключает ядро к внутрикристальной сети "Шега'5 іМеѕћ тм, которая 
позволяет каждому отдельному ядру взаимодействовать с находящимися 
поблизости ядрами. Скорость передачи данных по сети іМеѕћ может 
достигать 27 Тбит/с, 


Сеть реализована по топологии “голстого дерева" (Ра! Тгее) (рис. 3.6, 
рис. 3.7) [11,12], 


Средства разработки включают в себя среду Шега'; Миісоге Оеуеюртшете 
Епутоптег( тм (МОЕ), имеющую в своем составе стандартные средства 
параллельного программирования для многоядерных систем. 


Среда ега‘ М”РЕ содержит: 
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® стандартную интегрированную среду разработки, основанную на 

Есірѕе; 

компилятор АМ№ЅІ С/С++; 

симулятор; 

систему отладки и анализа производительности; 

широкие возможности интерфейса командной строки; 

полную поддержку системы 5МР Гігих; 

библиотеку Ш для повышения эффективности межъядерных 

коммуникаций; 

% отладочные платы РСІе, 


Рис. 3.6. Топология "толстого дерева" 


за 
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1—1 


Г }- Коммутаторы `В Коммутаторы 8 Коммутаторы 
первоғо уровня второго уровня третьего уровня 


Рис. 3.7. Логическая схема топологии толстого дерева, реализованная в 
Т1еб4 
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Рис. 3.8. Физическая топология 


Библиотека И предоставляет программные интерфейсы, которые 
позволяют разработчикам: 


® масштабировать прикладные программы от одного ядра до 
множества ядер; 

• абстрагировать межъядерную передачу данных в виде потоков 
или передач сообщений; 

• эффективно управлять ресурсами процессора, 


Семейство процессоров Ше-Сх 
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Компания ТӢега 26 октября 2009 года анонсировала стоядерные 640 
КІЅС-процессоры серии Те-Сх общего назначения для применения в 
серверах, выполняющих многопоточные приложения. Процессор 
выполнен по 40-нанометровому технологическому процессу с 
максимальным тепловыделением 55 ватт (16-ядерный вариант — около 
5 ватт). За счет применения специализированных модулей процессор 
сможет обеспечивать поток до 40 Гбит/с шифрованного трафика и до 20 
Гбит/с сжатого в режиме ЁШ Яцріех, Процессор изначально 
разрабатывается для работы под операционной системой Гіпих, Также 
представлены чипы с 64, 36 и 16 ядрами (таблица 3.1), 


Процессоры несовместимы напрямую с чипами на базе 
микроархитектуры х86, однако поддерживают ОС на базе ядра [іпих. 
Для того чтобы использовать привычные приложения, их необходимо 
сортировать с помощью прилагаемых программных инструментов 
(совместимость на уровне исходных текстов). 


Таблица 3.1. Процессоры семейства Тће-Сх 
Количество Пакетные Интерфейсы 


Процессор ядер интерфейсы рога ООКЗ Частота 
ае 100 А геа 2х40 Гбіс 4х@02133 пса 
ТІ.Е-х64 64 8 р 2х40 Гбіс 4х@01600 ии 
ТІ.Е-6х36 36 о 2х@1600 тач 
ТІП.Е-бх16 16 о" 2@1333 и 


Семейство Тіе-Сх [10] выводит вычисления с использованием 64- 
разрядных процессоров на новый уровень, позволяя многим 
приложениям достигать высоких показателей производительности. 
Семейство включает в себя устройства с количеством ядер от 16-ти до 
100 (рис. 3.9), соединенных накристальной сетью Тђега"ѕ ЇМеѕћ тм. 
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== == 
| Контроллер памяти СОЗ || контроллер памяти ООЯЗ 
же ПКМ | 
Ч. 


101000000 


Контроллер памяти ООВЗ || Контроллер памяти ООВЗ 


== Е 


Рис. 3.9. Общая структура процессоров Ше-Сх 


Так же, как и в предыдущих семействах, составной единицей 
процессора является ячейка, содержащая полноценный процессор с 
кэшами первого и второго уровней и неблокируемый коммутатор, 
соединяющий процессор (вычислительное ядро) с сетью (рис. 3.10). 
Ядра, как и в предыдущих процессорах данной компании, могуг 
работать как под управлением отдельной операционной системы, так и 
сгруппированными для работы под многопроцессорной системой типа 
МР их. 
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Рис. 3.10. Ячейка е-Сх 


Процессоры семейства Те-Сх снижают стоимость разработки системы 
благодаря наличию контроллеров памяти и ввода-вывода, уменьшая тем 
самым количество внешних компонент. 


Технология ТШеПшесе позволяет осуществлять согласованный ввод- 
вывод непосредственно в кэш ячейки процессора, что существенно 
снижает задержки при обработке пакетов информации. Система 
распределенного когерентного кэша Тіега'ѕ ООС тм (Рупатіс Обифшед 
Сасһе) увеличивает производительность многопоточных приложений и 
приложений, использующих разделяемую память. Ячейки могут быть 
сгруппированы в независимые вычислительные кластеры, 
выполняющие каждый свое приложение. 


Процессоры программируются при помощи языков С, С++, что 
позволяет разработчикам переносить на них существующие 
приложения. 
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Вычислительное ядро представляет собой 64-разрядный УШМ\- 
процессор с длиной команд 64 бита, содержащий 64 регистра в 
регистровом файле, трехуровневый конвейер с возможностью 
выполнения до З команд за цикл, кэши первого уровня для данных и 
инструкций размерами по 32 Кб и 256 Кб кэша второго уровня. 
Тактовые частоты лежат в пределах 1-1,5 ГГц. 


Кэш третьего уровня образуется при объединении кэшей отдельных 
ячеек — Тегаз ООС тм (суммарный размер кэша для стоядерного 
процессора составляет при этом 32 Мб). 


Скорость передачи данных между ядрами на кристалле составляет 
порядка 200 Тбит/с. Наличие четырех контроллеров памяти (2ОВЗ) 
обеспечивает суммарную пропускиую способность обмена с памятью 
500 Гбит/с. Процессор может иметь до восьми десятигигабитных 
Еһепеѓ-интерфейсов (ХАЛ), до трех интерфейсов РСІе второго 
поколения, до 32-х гигабитных Ећегпеі-интерфейсов (МАС), устройство 
обработки сетевых пакетов тРІРЕ, устройства шифрования и сжатия 
данных. 


Все это позволяет процессору работать с сетевыми приложениями с 
уровнем трафика 40-80 Гб/с (пропускная способность при обработке 
пакетов 80 Гб/с, при обработке УРМ трафика 40 Гб/с), обеспечивает 
пропускную способность по РСІе до 80 Гб/с. 


Суммарное энергопотребление лежит в пределах 10-50 ватт, 


Основные области применения: 


® сетевые приложения — межсетевые экраны, УРМ№, мониторинг 
трафика и сети; 
• инфраструктура систем беспроводной связи — контроллеры 


базовых станций, шлюзы, мультимедийные шлюзы; 

• мультимедийные приложения — обработка видеоданных, ІРТУ; 
"облачные" вычисления — веб-приложения, базы данных, 
хранилища данных. 


Процессор С5Х700 
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Архитектура процессора С5Х700 была разработана для решения 
проблемы размеров, веса и потребляемой мощности (Зе, Меір агі 
Ромег (ЅМАР)), которая, как правило, доминирует во встраиваемых 
высокопроизводительных приложениях. Путем интегрирования 
процессоров, системных интерфейсов и встроенной памяти с 
коррекцией ошибок, С5Х700 представляет собой экономичное, 
надежное и производительное решение, отвечающее требованиям 
современных приложений [13-14-15]. 


Процессор представляет собой архитектуру с массовым параллелизмом 
данных и высокой степенью эффективности и надежности, Архитектура 
нацелена на интеллектуальную обработку сигналов и обработку 
изображений во временной и частотной областях, 


Кристалл С5Х700 содержит 192 высокопроизводительных 
процессорных ядра, встроенную буферную память размером 256 Кбайт 
(два банка по 128 Кбайт), кэш данных и кэш команд, ЕСС защиту 
внутренней и внешней памяти, встроенный контроллер прямого 
доступа в память, Для обеспечения накристальной и межкристальной 
сети используется технология СІеагСоппесі МОС (рис. 3.11), 
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Рис, 3.11. Структура процессора СЅХ700 


Интерфейс внешней памяти имеет 72 бита для контроля и коррекции 
данных (Еггог Сһескіпа апа Согесбоп — ЕСС). Используется память 64- 
бит ООВ2 $ОВАМ объемом до 4 Гбайт, Процессор имеет 64- разрядное 
адресное пространство, которое отображается в 48-разрядное 
физическое. Порты ССВКО и ССВКІ предназначены для образования 
мультикристальных систем, а также могуг служить для подключения 
ПЛИС. 


Процессор состоит из двух относительно независимых модулей (ядер) 
МТАР, содержащих кэши инструкций, данных, блоки управления 
процессорными элементами, и набор из 96 вычислительных ядер — 
процессорных элементов (РЕ) (рис. 3.12) [15]. Поддерживает 
одновременное выполнение восьми потоков, 
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Рис. 3.12. Структура МТА: 


фт" 


Р-блока 


На каждом такте процессор извлекает команду декодирует ее и 
направляет в исполнительные блоки топо или ро либо на контроллер 
ввода-вывода. Набор команд традиционен для В1$С-процессоров — это 
трехадресные команды. Кроме того, процессор выполняет команды 
перехода и управляет переключением потоков. Команды выполняются 
над операндами топо или ро]у, причем некоторые из них реализуются 
только в каком-то одном блоке (например, команды переходов — лишь в 
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топо)[14]. 


Каждое ядро имеет двойной блок вычислений с плавающей точкой 
(сложение, умножение, деление, вычисление квадратного корня, 
поддерживаются числа одинарной и двойной точности), 6 Кбайт 
высокопроизводительной оперативной памяти, 128-байтный 
регистровый файл. Поддерживается 64-битное виртуальное адресное 
пространство и 48-битное реальное, 


Технические характеристики процессора: 


тактовая частота ядер — 250 МГц; 

96 ГФлоп двойной или одинарной точности; 

поддерживает 75 ГФлопс двойной ОСЕММ; 

производительность целочисленных оперкций — 48 ГМАС/с 
(умножений с накоплением в секунду); 

рассеиваемая мощность — 9 Вт; 

пропускиая способность внутренних шин памяти — 192 Гбайт/с; 
две внешних шины памяти — 4 Гбайт/с; 

скорость обмена данными между отдельными процессорами — 4 
Гбайт/с; 

• интерфейсы РСІе, 2х ООБ2 ОВАМ (64 бита). 


Внутрикристальная магистраль позволяет одновременно выполнять 
несколько обменов, например, обеспечивает доступ процессора к 
внутренней памяти. Кроме того, она дает возможность вести передачу 
данных из внешней памяти на порты ССВКО или ССВКІ с 
использованием канала ОМА, 


Ядра синхронно исполняют один поток команд в режиме $1МО. 
Данные, которые должны обрабатываться параллельно, снабжены 
описателем ро. 


Процессор поддерживает для каждого потока его контекст, Если РЕ- 
ядра выполняют длительный ввод-вывод, то процессор должен 
переключиться на другой поток, При этом потоки имеют приоритеты, и 
готовый поток с более высоким приоритетом прерывает выполнение 
потока с более низким, Потоки синхронизируются друг с другом и 
контроллерами ввода-вывода через аппаратные семафоры. 
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Семафоры представляют собой специальные регистры, значения 
которых увеличиваются или уменьшаются с помощью неделимых 
атомарных команд — соответственно, па! и май, Если май 
выполняется над семафором с нулевым значением, то выполнение 
команды приостанавливается до тех пор, пока не будет исполнена 
команда ѕірпа! над этим семафором в другом треде или устройстве. 
Операции над семафорами способны выполнять и аппаратные блоки, 
например, контроллеры ввода-вывода. 


Каждое ядро РЕ может выполнять или не выполнять команды в 
зависимости от значения разрешающих битов. Если все эти биты 
составляют "1", то команда выполняется, Если же хотя бы один из таких 
битов равен "0", большинство команд не выполняются (за исключением, 
например, команд изменения состояния разрешающих битов). Регистр 
разрешающих битов трактуется как стек; биты заходят в него через 
вершину 


Условное выполнение команд в РЕ поддерживается роју-командами 
перехода; Ё ее, епаЁ и др. Они управляют значениями битов 
разрешения. Например, при выполнении команды і сравнения двух 
операндов во всех РЕ происходит следующее: в тех РЕ, где есть 
совпадение, в вершину стека будет помещена "1", а в тех, где 
обнаружено несовпадение, в вершину стека помещается "0". 
Соответственно, эти РЕ будут или не будут выполнять последующие 
команды — вплоть до команды епі которая "вытолкнет" из стека 
значение, занесенное командой і Стек имеет фиксированный размер, 
поэтому необходимо следить за его переполнением, 


Команды чтения и записи из локальной памяти РЕ в регистры также 
могуг выполняться или нет в зависимости от значения разрешающего 
бита. Для безусловного выполнения обмена между памятью и 
регистрами введены специальные команды іогсей Іоаа и Їогсеа ѕіоге, 


Канал ввода-вывода РЕ включает в себя контроллер и один или 
несколько каналов прямого доступа, Контроллер интерпретирует 
команды ввода-вывода и взаимодействует с тредами посредством 
семафоров. Обмен между локальной памятью РЕ и внешними 
устройствами выполняется путем программируемого ввода-вывода или 
с использованием каналов прямого доступа в локальную память. 
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Каждый процессор может читать свою часть данных или выполнять 
общее чтение — с "нарезкой" одинаковых блоков для каждого 
процессора, 


Процессорные элементы (РЕ) способны осуществлять обмен с 
"соседями" справа и слева, На каждом такте РЕ может выполнить 
передачу из своего регистра в регистр правого или левого "соседа" и 
получить одновременно справа и слева данные в свои регистры. 
Используются команды сдвига вправо и влево, а также передачи 
"соседу". Если РЕ имеет бит разрешения "0", то соседний процессор не 
может изменить состояние его регистров. 


Разработанный для низкопотребляющих систем, данный процессор 
сочетает управление тактовой частотой, обычное для встраиваемых 
систем, с относительно низкой тактовой частотой, Управление частотой 
позволяет регулировать производительность приложений при работе в 
условиях определенного энергопотребления и теплового окружения. 


С5Х700 поддерживается профессиональной средой разработки (50К) 
на основе технологии Есйрзе с визуальными средствами отладки 
приложений, базирующейся на оптимизированном компиляторе АМ$1 
С с расширениями для параллельного программирования, В 
дополнение к стандартной библиотеке С идет набор 
оптимизированных библиотек с такими функциями, как БПФ, ВГА$, 
ТАРАСК и др. 


Краткие итоги 


Представленные в лекции процессоры фактически демонстрируют два 
подхода к построению процессоров с большим количеством ядер: ММО 
— архитектура с развитой сетью обмена данными и $1МО — с 
обработкой однотипных данных в несколько потоков, 


Основной структурной единицей процессоров Те является ячейка 
(плитка), содержащая процессорный элемент и коммутатор. 


Для устранения узкого места при доступе к внешней памяти 
используется двухуровневое построение кэша, в дополнение к этому 


ядра имеют доступ к кэшу второго уровня других ядер — так 
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называемый распределенный кэш третьего уровня, 


Основные целевые области применения процессоров Те — сетевая 
инфраструктура, сервис-ориентированные приложения, "облачные" 
вычисления, обработка мультимедийных данных, 


Структурной единицей процессора С5$Х700 можно назвать 
многопотоковый процессорный массив — МТАР, 


Целевое назначение этого процессора — обрабока сигналов и 
изображений, 


Оба процессора имеют среды разработки и отладки приложений на 
базе ЕсЁрзе, основной язык программирования — С, прилагаются также 
наборы библиотек и тестовых приложений, 


На базе своих процессоров фирмы предлагают как независимые 
вычислительные модули, так и платы расшнрения с интерфейсом РСІе, 


Контрольные вопросы 


1. Архитектура процессоров Те — основные принципы 
построения, общие черты. 

2. Опишите топологию связей между ядрами в процессорах Пе. В 
чем состоят ее преимущества? 

3. Как организована подсистема памяти процессоров Те? 

4. Опишите общую структуру процессора С5Х700. 

5. Каким образом реализована поддержка многопоточности в 
процессоре С5Х700? 


Упражнения 


1. Сравните типовые характеристики задач для процессоров Тега и 
С\еагбрееа. 

2. Оцените эффекивность передачи данных между процессорами в 
процессорах ТШега и Сеагбрееа. 
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Многоядерные процессоры с НИЗКИМ 
энергопотреблением 


Лекция посвящена двум интересным разработкам, нацеленным на 
минимизкцию энергопотребления процессора при сохранении высокой 
производительности, Демонстрируются два различных подхода к 
управлению производительностью и энергопотреблением: с одной 
стороны — локальное управление тактовой частотой и напряжением 
питания ядра, с другой самосинхронная схемотехника с полным 
отключением ядер во время простоя или ожидания данных. 


167-ядерная вычислительная платформа — АзАР-П 


167-ядерная вычислительная платформа [16,17] (далее — процессор), 
разработанная в Калифорнийском университете в Дэвисе, реализована 
в кремнии фирмой 5ТМісгое1есігопісѕ по 65-нм технологическому циклу. 
Данный процессор предназначен прежде всего для цифровой обработки 
сигиалов, коммуникационных функций, мультимедийных приложений. 
Процессор содержит 164 программируемых ядра с динамическим 
управлением напряжением питания и тактовой частотой, три 
специализированных процессора, три буфера разделяемой памяти по 16 
Кбайт, Все компоненты процессора тактируются собственными 
независимыми генераторами и соединены специальной 
внутрикристальной сетью. Структурная схема процессора [17] 
представлена на рис. 4,1, Аналогично процессору АзАР [16] каждое из 
ядер имеет 16-разрядные шнны данных, 40-битный аккумулятор, 
независимый тактовый генератор с возможностью останова, 


Гомогенный массив из 164 ядер уменьшает затраты на разработку 
приложений и позволяет приложениям работать по различным путям в 
целях повышения надежности работы и самотестирования и 
настройки, 


Для повышения соотношения "энергия/производительность" выделены 
специализированные процессоры, адаптированные для задач цифровой 
обработки сигналов (быстрое преобразование Фурье), коммуникаций 
(Витерби-декодер), мультимедиа-приложений (распознавание 
движений). Три разделяемых буфера памяти по 16 Кб каждый 
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обеспечивают скоростную запись данных и их хранение, поддерживают 
приоритеты портов, арбитраж обращений, множественные режимы 
адрескции, включая программируемый генератор адреса. 
Специализированные процессоры и разделяемые блоки памяти также 
имеют независимые локальные тактовые генераторы, Данная 
архитектура построения получила название "глобально асинхронной 
локально синхронной" (САТ5). Взаимодействие осуществляется при 


помощи буферов ЕІЕО с двойным тактированием, 


Внешний Последовательный Тестовый 
‘тактовый сигнал вход конфигурации вывод 


Логика конфигурации и тестирования 


Входные 


Выходные данные, 
строб данных, 
тактовый сигнал 


Запрос на 
получение 
данных 


Запрос 
на прием 
данных 


выходной мультиплексор 


16-битное: 
процессорное ядро. 
[ОЗУ команд] 
(12938 бит] 


х [ОЗУ данных) 
[Виторби-дькодер] * 1128416 бт 


тактовый ЕІРО-буфар 
т Пеене еетор (Е1ғо-буфер| 


Рис, 4.1. Структурная схема 167-ядерного вычислительного массива 


Каждое ядро имеет память команд в 128 35-битных слов, 128 слов 16- 
разрядной памяти данных, два 16-разрядных ЕІЕО-буфера по 64 слова, 
одновыходной шестиуровневый конвейер В15С. КІЅС-ядра 
поддерживают более 60 базовых инструкций, включая байтовое 
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сложение/вычитание, вычисление минимума/максимума и абсолютных 
значений, переходы, возвраты из подпрограмм, инструкции условного 
выполнения, циклы, блок с плавающей точкой (рис. 4.2). Задача 
вычисления квадратного корня (СОВГІС) выполняется за 216 циклов (в 
процессоре АѕАР операция занимала 628 циклов). 


пересылка. Кхоммунгору 
кмуљзиплекоорам выбора Й 
мотоннинаданна ИЕ 
Откоммутатора * 
Ебер. + 
'РЕО-буфор + + Блок 
+ ний 
| столара. 
Дьадар | ОЗукоыд тоно 
Петта 12816 бит 
озунон 
Чара, І 
нанар че 
ес: и 
Птички о! 
Програ] нен понять 
м пит тоноу ати) 


Рис, 4.2. Структура вычислительного ядра 


Процессор БПФ может динамически переключаться между 
вычислением прямого и обратного преобразования Фурье с 
количеством отсчетов от 16 до 4096 путем вычисления комплексной 4- 
или 2-точечной "бабочки" за цикл. 


Конфигурируемый Витерби-процессор содержит 8 АС5-модулей и 
может осуществлять декодирование кодов вплоть до длины 10, 


Процессор детектора движения поддерживает несколько 
фиксированных и программируемых поисковых алгоритмов, 
отвечающих алгоритму Н.264, выполняет более 14 миллиардов 
операций (5АР5$) в секунду на частоте 880 МГц. 


Ядра процессора обмениваются данными посредством 
конфигурируемых связей между соседними процессорами и длинных 
связей. Связи являются циклически переключаемыми и статически 
конфигурируемыми, что хорошо согласуется с технологией локальной 
синхронизации, используемой в процессоре, Структура связей включает 
два входа вычислительного ядра и одиночный выход, который 
динамически подключается к восьми выходам ячейки. Каждая связь 
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содержит 16-разрядную шину данных, сигнал синхронизации 
источника, разрешающий сигнал (стробирующий) и сигнал запроса на 
смену направления, используемый для контроля потока, Ограниченные 
только искажениями тактового сигнала, связи могут быть 
сконфигурированы для передачи данных сквозь процессор в выбранном 
выделенном канале без привлечения промежуточных процессоров и 
безотносительно их текущих напряжений питания и тактовых частот 
(рис. 4.3). Данные могут быть помещены в конвейер в каждой ячейке 
для достижения полной скорости при передачи на длинные расстояния 
или передаваться напрямую, если дистанция мала или тактовая частота 
источника данных мала (рис. 4.4), Такие меры снижают общую 
задержку передачи данных, 


Для уменьшения рассеяния энергии, когда ядра не полностью 
загружены, ядра могут менять собственное напряжение питания и 
тактовую частоту Ядра меняют напряжение питания, подключая свои 
питающие выводы (У49Соге) к одной из двух глобальных шин питания 
[16] (рис. 4.5). Локальные генераторы подключены к шине УдйОѕс и 
позволяют сглаживать сбои генерации при переключении питающих 
напряжений. Шина УдаАмауѕОп питает цепи устройств коммуникации 
и конфигурации, а также цепи динамического управления питанием и 
коммуникациями. Также возможно отключение линий УйСоге 
неиспользуемых процессоров от питающих глобальных шин (уменьшая 
таким образом потребление ядра более чем в 100 раз), 


Питающее напряжение и тактовая частота ядра могут быть установлены 
следующими путями; конфигурируемым аппаратным (НМ/) контролле 
ром; программой, выполняемой на ядре; статически заданной 
конфигурацией. Ключевой идеей является то, что состояние НМ- 
контроллера зависит от наполнения ЕІЕО-буфера(ов) и сигнала 
остановки/простоя процессора, Т. е. переполняемое ЕО или редкие 
остановы показывают, что ядро работает слишком медленно, а 
опустошение ЕІЕО или частые остановы показывают, что оно работает 
быстрее, чем необходимо. Поскольку характеристики ЕТЕО и остановов 
различны, для различных задач предусмотрен конфигурируемый КИХ/ 
БИХ-фильтр нижних частот, сглаживающий разброс значений для 
дальнейшего использования. Порогн срабатываний датчика останова/ 
простоя также конфигурируемы. 
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АЛЕНЕ ТЕЙТ 


өт конфигуратора 


запросы пенных _Налрамны 
СЮ, В. (1.2) Севәр (С) 
Р Восток (8} 
залап[5) 


юг 


Рис. 4.4. Организация межъядерных соединений в вычислительном 
массиве 
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ГОГ ГУ Тез сс напрекения чаан аъ 


0-р чаа] 
ОТ ВИ 1 она питания тактовых генер 


ГТК ина питания — чаднаа фо | 


ШЕЕ ОЕ 


Рис. 4.5. Структурная схема управления питанием вычислительного 
ядра 


Риск динамического переключения питания ядер в многоядерной 
системе заключается в проседании локального напряжения на питании 
ядра и шум на глобальных шинах питания, Для снижения негативных 
эффектов контролер выключает генератор на время переключения 
питания, В дополнение к этому силовые р-МОП транзисторные ключи 
каждого переключателя организованы как 48 включенных параллельно 
ключей с индивидуальными сигнальными линиями и конфигурируемым 
временем срабатывания. Контроллер РҰУЕЅ (рис. 4.6), цепи 
межъядерных коммуникаций и р-МОП ключи находятся вокруг ядра и 
запитываются У4аА№маузОп-шиной, что делает возможным изменение 
уровня напряжения только между ядром и его окружением, 
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Блок управления пиганнем — БМР Шина питання — М48АЊнауз0п 


спониженнын. 
напряжением — 
учань 


Рис, 4.6. Структурная схема ОУЕЅ-контроллера 


Энергопотребление отдельного ядра при полной загрузке на частоте 
1,07 ГГц и питании 1,2 В составляет около 48,4 мВт, При напряжении 
питания 0.675В ядра работают на частоте 66 МГц и потребляют 0,61 
мВт. Таким образом, в зависимости от режима энергопотребление 
процессора в целом составляет от 101 мВт до 7,93 Вт. 


По результатам тестирования, 9-процессорный ЈРЕС-кодер, 
работающий при напряжениях питания 1,3 В и 0,8 В, достигает 
примерно 8% экономии энергии по сравнению с тем же кодером, 
работающим исключительно при питании 1,3 В. Приемник, полностью 
совместимый со стандартом ЈЕЕЕ 802.11а/0, реализован с 
использованием 39 процессорных ядер (при этом задействованы только 
связи между соседними ячейками), плюс специализированные 
процессоры БПФ и Витерби. Применяя длинные связи, приемник 
можно реализовать на 27 ядрах — почти на треть меньше. При 
симуляции последняя версия приемника рассеивает примерно 75 мВт 
при работе на частоте 690 МГц и скорости данных 54 Мб/с в режиме 
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реального времени (включая 2,7 мВт для БПФ-процессора и 5,5 мВт для 
Витерби). Данная реализация в 34 раза быстрее, чем реализация на 
процессоре ТТ С6б2х, а также в 19 раз быстрее и в 28 раз менее 
потребляет, чем реализация на ГАВТ [17]. 


Архитектура процессоров ЗЕАЮЦЩЬ 


Процессоры ЗЕАЮг [1, 2] позиционируются как многоядерные 
процессоры для встраиваемых систем реального времени. Построены 
по технологии встраиваемого масштабируемого массива — ЗсааЫе 
Етьеддеа Агтау. 


Одно из основных возможных применений процессов ЗЕАЮЩЪ — 
производственные контролирующие и сенсорные системы, 
контроллеры сенсорных сетей, мультимедийные системы [3, 4]. 


Данные процессоры отвечают практически всем современным 
тенденциям —Й параллелизм, низкое энергопотребление, высокая 
скорость работы ядра. Есть также и моменты, которые ставят их 
особняком: кроме стековой архитектура ядра это отсутствие модуля 
вещественных вычислений; отсутствие кэша, если сравнивать с 
процессорами; малый объем памяти, небольшое количество 
периферийных устройств, если проводить сравнение с 
микроконтроллерами. 


Имея в своем распоряжении несколько десятков ядер, программист 
может выделять некоторые группы из них для решения различных 
специализированных задач. Для типовых задач возможно создание т, н. 
параметризированных макроблоков из нескольких ядер. В результате 
получается гибкая мультипроцессорная система, предназначенная для 
решения широкого круга прикладных задач. 


Поскольку объем памяти для размещения программ мал, типичной 
практикой в программировании процессора является замена 
исполнимого кода во время исполнения программы. Как правило, 
каждое ядро исполняет относительно небольшую функцию или блок 
приложения, что характерно для большого количества задач управления 
или обработки потоков данных, В качестве примера можно привести 
реализацию ОРЅК-приемника и передатчика на $ЕАїогћ4 [3]. 


55 


Калачев А.В Многоядерные процессоры 
Одно из основных возможных применений процессов ЅЕАіогіћ — 
производственные контролирующие и сенсорные системы, 
контроллеры сенсорных сетей [4], мультимедийные системы. Причины, 
обусловливающие это: 


• возможность параллельной обработки данных в реальном 
времени; 
•е возможность распределенного управления промышленной сетью. 


К процессору в системе сбора данных могут быть подключены датчики 
практически с любым интерфейсом (при условии согласования уровней 
напряжения) и различными протоколами обмена. Это достигается за 
счет программного управления линиями ввода-вывода, таким образом, 
различные ядра процессора имеют возможность взаимодействовать с 
датчиками по различным протоколам, Упрощается также замена 
датчиков — при необходимости вносятся коррективы только в 
программное обеспечение, 


Кроме непосредственно сбора данных параллельно процессор может 
вести их обработку в реальном времени, включая такие вычислительно 
емкие задачи, как цифровая фильтрация, быстрые преобразования 
(Фурье, Уолша, Хартли и др.), анализ аудио-, видео- или радиосигналов, 
РІР-регулирование, ФАПЧ, 


Процессор состоит из множества независимых вычислителей, 
соединенных по топологии двумерной прямоугольной решетки, имеет 
ряд последовательных портов, параллельные порты, выводы общего 
назначения, АЦП, ЦАЛ (рисунок 4.7). Каждый из вычислителей 
является фон-неймановским стековым процессором с сокращенным 
набором команд, имеет собственную оперативную память, порты ввода- 
вывода и постоянную память с рядом предустановленных фирменных 
функций, Взаимодействие вычислителей (далее — ядер) осуществляется 
посредством механизма параллельных взаимодействующих процессов 
(парадигма ОККАМ). В некотором приближении процессор можно 
рассматривать как сеть из миниатюрных транспьютероподобных узлов. 
Глобальная синхронизация ядер отсутствует. 


Линии ввода-вывода можно применять для программной реализации 
различного рода интерфейсов, помимо ограниченной поддержки 
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основных последовательных интерфейсов в ПЗУ некоторых ядер. 
Последовательные порты могуг быть использованы для соединения 
нескольких процессоров. 


Программное управление линиями ввода-вывода позволяет 
поддерживать несколько форматов цифровых сигналов и видов 
модуляций аналоговых сигиалов, в отличие от специализированных 
СБИС, поддерживающих 1-2 стандарта. 


ЕЕЕ ЕЕЕ" 
а) «Ы ЫЫ Ы Ы ә. Ы а. а с) 
НЭСРКЭЭСКЭС. 
ВИСЕ 
ЯЕ С 
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Рис, 4.7. Структурная схема процессора ЗЕАЮг40 


Интерфейсы и протоколы, реализуемые программно, могуг 
варьироваться от простых протоколов, аналогичных Ё5-232, ЅРІ, до 
достаточно сложных алгоритмов кодирования типа ОРЅК или ОАМ. 
При этом максимальные скорости обмена данными лежат в диапазоне 
10-20 Мбит/с, 


В процессорах применен ряд технологнй, позволяющих добиться 
значительной экономии энергни, Наиболее заметная из них; ядро, 
первым подошедшее к точке передачи данных, автоматически переходит 
в спящий (пассивный) режим до тех пор, пока взаимодействующее с 
ним ядро не подойдет к этой же точке. При этом время выхода из 
пассивного режима составляет примерно 10 нс. В спящем режиме ядро 
рассеивает порядка 1 мкВт, плюс обеспечивается прозрачная для 
прикладного программиста синхронизация процессов, выполняющихся 
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на различных ядрах. Как правило, во время работы приложения 
активны одновременно активны 8-16 ядер. Рторая особенность — 
внутреннее представление данных. На физическом уровне в ядре в 
соседних битах одинаковые логические уровни представлены 
противоположными уровнями напряжений. Например, если в регистре 
находится число 100010Ъ, то физические уровни напряжений на его 
выходах будут следующие: НННВВВ. И третий момент — отсутствие 
глобальной синхронизации ядер и асинхронное исполнение самого 
ядра (нет тактовых генераторов). Низкое энергопотребление и высокая 
энергетическая эффективность являются одними из ключевых свойств 
процессоров ЅЕАќогіћ, 


В процессорах ЅЕАіогіћ не используется механизм прерываний. В 
случае необходимости ядро переходит в пассивный режим, ожидая 
записи или чтения в коммуникационный порт. При этом время перехода 
из пассивного в активный режим и наоборот крайне мало — <10нс. 
Благодаря наличию нескольких периферийных ядер процессор может 
одновременно обслуживать несколько источников событий с 
минимальной задержкой, что идеально для систем, работающих в 
режиме жесткого реального времени. Поскольку ядра асинхронные, 
исполнение программы происходит с максимально возможной 
скоростью. Процессор не нуждается в режимах пониженной частоты, 
характерных для обычных микроконтроллеров с целью понижения 
энергопотребления, 


Процессор 5ЕАќогћ40 (40618) содержит 40 ядер (рис.4.8), 
объединенных в решетку 4х10, 
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Рис, 4.8. Структурная схема процессорного ядра С18 


Ввод-вывод в ЅЕАќогіћ программно доступен по трем путям; 


• цифровые выводы, доступные через специальные регистры или 
регистры 10С$; 

® межпроцессорные коммуникации, выполняемые при помощи 
направленных портов; 

• аналоговый ввод-вывод, доступный через специальные регистры 
или регнстры 10С$. 


Каждое ядро С18 разделяет до четырех портов ввода-вывода со своими 
соседями. В общем случае межпроцессорные коммуникации являются 
блокирующими и самосинхронизирующимися — это значит, что 
процессор уходит в спящее состояние, пока операция не будет 
завершена. 


Каждый межпроцессорный коммуникационный порт соединен 
напрямую со своими соседями — соседние узлы разделяют один порт. 
Общий порт имеет для соседних процессоров один и тот же адрес, Нет 
регистров или ЕТЕО-буфера — одни линии порта напрямую соединены 
с соседними линиями записи. Значение, записанное в порт, может 
иметь различные интерпретации — узел, проводящий чтение, может 
исполнить считанный код, Когда процессор проводит операцию чтения, 
он блокирует запись соседнего процессора; когда процессор пишет, он 
блокирует операцию записи соседа. Подобный метод синхронизирует 
соседние процессоры. Блокировка — ключевой элемент в уменьшении 
потребляемой процессором мощности и средство синхронизации ядер 
(процессов). В блокированном состоянии ядро практически не 
потребляет мощности. Только один из процессоров блокируется во 
время транзакции — тот, кто входит в нее первым. Блокировки можно 
избежать, считывая бит статуса в регистре 10С$ перед операцией 
чтения или записи, Возможны операции множественного чтения/ 
записи в порт. При наличии готового к транзакции соседнего узла 
операции чтения/записи занимают порядка 4,2 нс. 


Каждое ядро, входящее в состав процессоров ЗЕАЮНЪ, содержит 18- 
разрядный микропроцессор С18, имеющий 64 18-разрядных слова ОЗУ, 
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64 18-разрядных слова ПЗУ с заранее прошитыми функциями (т. н. 
ПиеПазуз-Ью5), 4 порта ввода-вывода. Некоторые узлы, находящиеся по 
краям решетки, имеют дополнительно последовательный или 
параллельный порт, АЦП или ЦАП. Функции, прошитые в ПЗУ 
отдельных ядер, также несколько отличаются, 


По сравнению с предыдущей моделью в его ядра С18 внесены 
изменения, существенно упрощающие организацию вычислительного 
процесса. Был добавлен т. н. режим расширенной арифметики, при 
котором перенос сохраняется в 10-м бите регистра Р (данный бит в 
адресации памяти не участвует); таким образом, появляется 
возможность производить операции над многоразрядными числами. 
Вторая особенность АЛУ — операция +* производится между вторым 
элементом стека и регистром А. Старшее слово результата помещается 
на вершину стека, младшее остается в регистре А, второй элемент стека 
— регистр $ — остается без изменений. Два ядра процессора имеют 
высокоскоростные интерфейсы 5ЕКОЕ$, отсутствовавшие в ЗЕАЮг24. 


Производительность ядра — примерно 700 МІР (время выполнения 
инструкции примерно 1,4 нс) при уровне потребления мощиости ~12 
мВт. Соответственно — максимальная мощность, рассеиваемая 
процессором при полной загрузке всех узлов, не более 250-400 мВт, что 
сравнимо со многими сигнальными процессорами. 


Помимо ОЗУ и ПЗУ С18 содержит два стека — данных и возвратов, с 
выделенными регистрами вершин стеков и логикой управления, 
регистр слова-инструкции, программный счетчик, АЛУ, декодер команд 
и логику выборки команд, а также два индексных регистра. Инструкции 
имеют длину всего лишь 5 бит, что позволяет упаковывать три или 
четыре инструкции в одно 18-битное слово. 18-битное слово содержит 
до 4 опкодов, выбираемых слот-селектором, и передается на декодер и 
логику контроля, управляющую функциями ядра. Восемь из 5-битных 
инструкций могуг быть помещены в 3-битный слот, как последний код 
операции в слове. Таким образом, максимально в оперативной памяти 
С18 можно разместить 256 команд, что с учетом высокой 
реентерабельности форт-кода достаточно для реализации многих 
алгоритмов и прикладных программ. 


Стеки в С18 — массивы регистров. Стек данных используется для 
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выполнения арифметических операций. Два наиболее часто 
используемых регистра могут быть доступны непосредственно — Ти $. 
Оба они подключены к АЛУ, резульгат операций помещается в регистр 
Т Ниже находится циклический массив из 8 регистров. Один из этих 
регистров в каждый момент времени выбирается как регистр, 
следующий за $. АЛУ, использующее регистры Т и $, вычисляет все 
возможные арифметические операции параллельно, используя 
комбинаторную логику. Текущей командой выбирается необходимый 
результат из АЛУ и помещается в Т. 


С18 имеет девять 18-битных регистров стека возвратов. Верхняя 
позиция стека возвратов находится в регистре В. Под В также находится 
циклический массив из 8 регистров. Инструкции вызова оставляют 
значение программного счетчика на стеке возвратов. Команды возврата. 
снимают только 9 младших разрядов. Стек возвратов также может быть 
использован Для временного хранения данных и в качестве счетчика 
циклов. 


Таблица 4.1. Регистры С18 


9-ти битный программный счетчик (10-битный для 
процессора 40с18) 


Т,$ Первый и второй элемент стека данных 
Верхний регистр стека возвратов. Один из 9-ти 


К регистров стека возвратов, доступен через 
риѕђ/рор,саШтебит. 


18-битный регистр общего назначения, адресный, 


А автоинкрементный 

В 9-битный адресный регистр 

М 18- битное слово инструкции 

ВСТН, 

ВО\М Коммуникационные регистры (являются общими с 
ГЕРТ, Ор соседними ядрами} 

1065 Регистр режим выводов и статус ввода-вывода 
РАТА Внешияя шина данных 


АООВЕЗ$ Адресный регистр внешией памяти 


62 


Калачев А.В Многоядерные процессоры 
Аппаратного контроля за переполнением и исчерпанием стеков не 
предусмотрено, Поскольку регистры в стеке связаны в кольцо, они не 
могуг переполниться или исчерпаться, они просто "прокручиваются". 
Так как глубина стека ограничена, добавление элемента на стек означает 
затирание самого нижнего элемента, Когда идет извлечение из стека, 
нижние 8 элементов будуг повторяться. После двух чтений Т и 5 будуг 
содержать копии двух элементов массива стековых регистров. 


Выходы программного счетчика РС управляют адресной шиной 
(подаются на шину адреса) программный счетчик по выполнении 
инструкции инкрементируется. Данные, адресуемые РС, загружаются в 
регистр инструкций ГМ. 


Регистры ІОСЅ - предназначены как для ввода-вывода, так и для 
мониторинга межпроцессорного обмена. Они являются комбинацией 
элементов хранения бит статуса, показывающих, произошли ли 
операции чтения или записи (с той или другой стороны). Также они 
содержат значение, выводимое или считанное с линии ввода-вывода. 
Режим и выходное состояние линии устанавливается записью в ІОСЅ. 
Типовое время доступа к регистрам ІОСЅ - 2,8 нс. 


Структура адресного пространства. Карта распределения адресного 
пространства микропроцессора С18 выглядит следующим образом - 
рис.3. Оперативная, постоянная память, специальные регистры и 
порты ввода-вывода находятся в одном адресном пространстве и для 
работы с ними применяются одни и те же команды, 
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Рис. 4.9. Карта памяти С18 


При выполнении программы логика берет значение с адресной шины и 
вычисляет новый адрес параллельно со временем доступа шины. 
Результат становится доступным для РС или для регистра А. 
Использование инкрементированного адреса определяется текущей 
инструкцией. При нормальном потоке выполнения результат 
записывается в РС. В пределах границы 128 слов, 
инкрементированный адрес может прокрутиться к началу страницы, 
следовательно, ВАМ и ВОМ появляются в двух различных диапазонах. 


Когда бит 8 адреса равен 1, идет адресация в пространстве ввода- 
вывода и увеличение адреса запрещено, т.е. когда регистр указывает на 
порт, указатель не сдвигается. Это значит, что выборка инструкций, 
литералов, запись литералов выполняются непосредственно с порта. 
Вызов с порта возвращает на порт. 


Процессор имеет достаточно большой объем математических библиотек 
и библиотек ввода-вывода (таблица 4.2), Математическая библиотека 
содержит наборы фунации умножения: ті, іти, для операций с 
целыми числами и с числами в формате с фиксированной точкой, 
деления с остатком штутой (имеет несколько точек входа), линейной 
интерполяции — іміегр, работы с векторами — гоќайог, вычисление 
полиномов — роу, вычисления триангулярной функции — ігіапдіе, ар 
— слова для организации расчета цифровых фильтров. 


Таблица 4.2. Слова и наборы слов ПЗУ процессоров ЗЕАЮНЬ 


Обозначение Слова и наборы слов ПЗУ $ЕАќотћ40 

Мс гејау, согпегуғагт, роу, тй, ВтЕ, (ар, імегр, ігіапдіе, -штой 
Мт гејау, сещегугаги, ройу, ті, іт, арз, ицегр, ігіапдіе, -штой 

Мо гејау, џрмғаттп, рой’, тИ, іти, ѓар, ілегр, іпіапдіе, -итоа 

МІ гејау, Іебмғагт, роѓу, ті, тї, (арз, імегр, ігіапдіе, -штой 

Аи гејау, џрмғаттп, рой’, тИ, ті, -дас, пиегр, ігіапдіе, -штой 

Ас гејау, согпегухаги, ройу, ті, іт, - ас, шегр, папа, -штой 
Ца гејау, Іеймғагт, роѓу, ті, зк, ќар, імегр, ёгіапдіе, рес 

Ри гејау, џрмғаттп, ѕрі, и2/ 


Оу гејау, џруғатп, ѕегіа], |5, тһ 
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$ гејау, еЁутагти, вер тН, (арз, ігіапдіе 
Си гејау, ир\аги, ирзегдез, тЁ, іти, ќарз, ицегр, ітіапдіе, -штой 


Функции ввода-вывода представлены набором слов для 
последовательных интерфейсов (синхронного и асинхронного — 
представлены в основном функциями чтения данных с порта). 5рі — 
слова начальной загрузки с флэш-памяти, чтения последовательной 
памяти. бета! — чтение данных с последовательного порта. 5реі — 
работа с синхронным последовательным портом. Вреі — чтение 
данных с асинхронного последовательного порта. Орзег4ез — 
поддержка работы с высокоскоростными последовательными портами 
ЗЕКОЕ$ (загрузка и исполнение кода), 


Система команд, Система команд С18 состоит из 32 базовых 
инструкций, составляющих язык УепішеЕогіћ, МепішеЕогіћ имеет все 
достоинства языка Форт: экономичность, простота и расширяемость. 
ТміеђаЅуѕ расширяет возможности УепіюегЕогћ добавлением поддержки 
Ғонһег – объектов, которые могуг распространяться между ядрами. 
Список команд с их кратким описанием представлен в таблице 3. 


Инструкции имеют длину всего лишь 5 бит, что позволяет упаковывать 
три или четыре инструкции в одно 18-битное слово. 18-ти битное 
слово содержит до 4х опкодов (рисунок 4.10), выбираемых слот- 
селектором и передается на декодер и логику контроля, управляющей 
функциями ядра, Восемь из 5-ти битовых инструкций могуг быть 
помещены в 3-х битный слот, как последний код операции в слове (3 
полных 5-ти битных слота, плюс З-битный остаток). Таким образом, 
максимально в оперативной памяти С18 можно разместить 256 команд, 
что с учетом высокой реентерабельности форт-кода достаточно для 
реализации многих алгоритмов и прикладных программ. 


Орсобе 5с 


Рис. 4.10. Слоты в регистре инструкций ГМ 


Типичная последовательность выполнения кода начинается со значения 
загруженного в программный счетчик и выставленного на шину адреса. 
Это значение используется двумя способами - выбирает адрес в памяти 


(в некоторых случаях - порты ввода-вывода) и управляет 
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"инкрементером", который записывает увеличенное значение обратно в 
счетчик. Выбранное значение подается на шину данных, значение шины 
фиксируется в регистре ІМ, Значение в первом слоте подается на блок 
логики контроля и декодирования, который управляет работой 
элементов ядра. Также блок имеет логику "предсказания" - если 
обнаруживается, что ни один из опкодов не использует шину адреса, 
разрешается выдача значения РС на шину адреса для предварительной 
выборки следующей команды. 


Загрузка литералов (констант/чисел), вызовы, переходы, обращения к 
памяти и портам требуют операнды. Команда перехода или вызова 
может иметь 3, 8 или 9-ти битный аргумент. Инструкции-литералы 
используют 5-битный опкод и 18-битное слово - литерал, который будет 
помещен на стек. 


Некоторые ядра, находящиеся по краям решетки имеют дополнительные 
устройства в виде параллельных или последовательных портов, 
аналого-цифрового преобразователя (АЦП), цифроаналогового 
преобразователя (ЦАП), и, соответственно имеют определенное 
количество внешних выводов. 


Параллельные порты доступны для чтения/записи либо как 
коммуникационные порты ядра (как правило ОР порт), при этом 
операции с ними являются блокирующими или при помощи 
специальных регистров РАТА, АООВЕЗ$, в этом случае блокировок не 
происходит, Параллельные порты могуг быть использованы, как для 
подключения внешией памяти, так и как порты ввода-вывода общего 
назначения. Подключение внешией памяти будет иметь свою специфику 
для каждого из процессоров семейства - в $ЕАЮг24 параллельные 
порты принадлежат одному ядру в Ѕ$ЕАіогћ40 - двум, и третий 
управляет контролирующими линиями. Время доступа к параллельным 
портам менее 5нс. 


Таблица 4.3. Список команд процессорного ядра С18 


имя нотация описание 
са11 В; -- а вызов подпрограммы 
В В; а -- возврат из подпрограммы 


јитр безусловный переход 
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пехі 


опехі 


ба+ 


!а+ 


В: а -- 
а2 

р: а2 -- 
а1 
Ож 
И за 
В; п -- 
п-1 

К: 0 -- 
В; п -- 
п-1 

в; 0 -- 
рат 
р; х -- 
0: --х 
А=А+1 
Ох -= 
А=А+1 
О; -- х 
р; х -- 
ре? == 
О-о 


Многоядерные процессоры 


передача управления сопрограмме (примитив 
для реализации многозадачности) 


перекод, если Т=0 
перекод, если число в Т отрицательное 
(старший бит = 1} 


если п<>0, переход по адресу, указанному в 
поле перехода 


аналогично пех, но в пределах одного слова 
инструкции 


Т=(А). помещает на стек значение, по адресу в 
регистре А 

(А)=Т. заносит в память по адресу, указанному в 
А значение с вершины стека 


помещает на стек значение, по адресу в регистре 
А, содержимое регистра инкрементируется 


заносит в память по адресу, указанномув А 
значение с вершины стека, содержимое регистра 
инкрементируется 


помещает на стек значение, по адресу в регистре 
В 


заносит в память по адресу, указанному в В 
значение с вершины стека, содержимое регистра 
значение с вершины стека записывается по 
адресу, указанному в р 

помещает на стек число с адреса, указанного в р 
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рор 


аџр 


Якор 


оуег 


а! 


аё 


Ъ! 


по 


апа 


хог 


2/ 


2* 


реж. == 
В; -- х 
Вузе кие 
7-5 
р; х -- 
х 

о == 
0; х1 х2 
-- х1 х2 
х1 

р; х -- 
А = х 
а=х 

Бу == 
0; х -- 
р=х 

р; х -- 
поЁ (х) 
О; х1 х2 
-- (х1 
апа х2) 
0: х1 х2 
= а 
хог х2) 
р; х -- 
х/2 

Во =ы 


Многоядерные процессоры 
Пустая операция 


переносит число со стека данных на стек 
возвратов 


переносит число со стека возвратов на стек 
данных 


дублирует вершину стека 
удаляет значение с вершины стека 


дублирует второй элемент стека на вершину 


переносит значение с вершины стека в регистр а 


копирует значение регистра а на вершину стека 


переносит значение с вершины стека в регистр 
1) 


инвертирует вершину стека 


на вершину стека помещается логическое И 
регистров Ти $ 


на вершину стека помещается побитовое 
исключающее или регистров Ти $ 


деление вершины стека на 2 


умножение вершины стека на2 
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О: х1 х2 


-- х1+х2 


+ суммирует вершину и второй элемент стека 


+* шаг умножения 


По умолчанию, ядра имеющие два вывода, считаются ядрами с 
последовательными портами, поскольку имеется возможность 
организовать полнодуплексный режим работы. Ядра с одним выводом 
относят к портам общего назначения. Ядра с синхронными и 
асинхронными последовательными портами отличаются только 
поддерживающими кодами программ в ПЗУ, никаких реальных отличий 
в устройстве ядер нет, 


Асинхронные порты фунационируют как универсальные асинхронные 
приемо-передатчики (ОАКТ), и служат для подключения внешних 
устройств или других процессоров ЗЕАЮГЫ, Код в ПЗУ позволяет 
загружать устройство через асинхронный порт, и позволяет ядру 
выходить из режима покоя при поступлении стартового бита. Отличия 
ядер с синхронными интерфейсами в том, что они используют 
отдельную линию как сигиал синхронизации. 


ЅРІ порты реализуются четырьмя линиями ввода-вывода и также имеют 
программную поддержку в ПЗУ. Код в ПЗУ предусматривает 
возможность загрузки исполнимого кода из последовательной флэш 
памяти - высокий уровень на линии ѕрі-іп начинает процесс загрузки. В 
процессе загрузки $РГ работает на скорости 150 кбит/с, позволяя 
использовать относительно дешевые устройства памяти. По окончании 
загрузки интерфейс может функционировать со скоростью порядка 10 
Мбит/с. 


Ядра с одиночным выводом могут использовать его как входной либо 
как выходной однобитовый порт. Данный порт доступен и 
конфигурируется через регистр ІОСЅ. Время перехода вывода из 
состояния с высоким импедансом в активное составляет порядка 110- 
115не, 


АЦП, имеющиеся на некоторых ядрах представляют собой генераторы, 
управляемые напряжением (ГУН), связанные с 18 разрядными 
счетчиками. Аналого-цифровое преобразование осуществляется 
посредством двух последовательных процедур чтения РАТА регистра и 
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вычислении скорости работы генератора. Время полного счета для 
входного напряжения 400мВ - 40 мкс, для 1500мВ - 75 мкс. 
Выделенными битами в регистре ІОСЅ ядра счетчик может быть 
запущен или остановлен, на ГУН подано напряжение с внешнего 
вывода, или напряжения ноля или питания для калибровки. 
Характеристика напряжение-код ( У; - АрСсоџпі ) АЦП является 


нелинейной. Зависимость У; (АрСсоцпё) можно с некоторой 


точностью рассматривать как кубическую вида: 
У „(АБСсош=ад * (АБСсоши -ат+ао 


При работе АЦП потребляет не более 4,5 мВт. Время, затрачиваемое на 
чтение данных из АЦП примерно 5-5,1нс. 


ЦАП реализован, как набор двоично-взвешенных источников тока и 
рассчитан на номинальную нагрузку 75Ом при токе 17 мА. Программно 
доступен через регистр ІОСЅ. 


5ЕВОЕ$ - специализированные параллельно-последовательные 
регистры, предназначенные для осуществления коммуникаций между 
процессорами. Могут передавать 18-разрядные слова (которые в свою 
очередь могуг быть, как данными, так и инструкциями), могут служить 
генераторами функций. Имеют две двунаправленные линии - данных и 
тактовую. Направление устанавливается в регистре ІОС5 ядра, данные 
записываются по адресу РАТА, для контроля прихода/отправки слова 
используется адрес ФР. Тактирование осуществляется от специального 
осциллятора. Передача идет на скорости порядка 400Мбит/с, на 
передачу одного слова требуется 19 тактов. 


Процессоры ЗЕАЮг являются достаточно мощным решением для 
встраиваемых систем реального времени за счет высокой скорости 
исполнения команд и высокой степени параллелизма, недоступной 
многим другим процессорам. Неоспоримым плюсом является низкое 
энергопотребление, особенно в пересчете на количество операций в 
секунду Система команд доведена до определенного минимума, по 
функциональности и удобству ее можно сравнивать с системой ВІЅС- 
контроллеров, таких как РІС1бхх, 286, 289. Набор периферийных 
устройств, по сравнению с современными контроллерами, несомненно, 
мал и сводится в основном к устройствам передачи данных и 
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преобразователям сигнала. Упор сделан на программную эмуляцию 
необходимой периферии. 


Проведем сравнение процессоров ЗЕАЮЩ с наиболее 
распространенными целочисленными контроллерами различных 


архитектур [8-14] (Таблица 4.4). 


Таблица 4.4. Сравнительные характеристики целочисленных 


контроллеров 
ЗЕАЮИ®-яд] 
А\ 1 
Характеристика . ув АУВЗ2 М$Р430 АВМ* С18 
(рісоРомег) (суммарно г 
24/40 ядрам 
Разрядность 8 32 16 32 18 
Производительность, 50- 700 
2 72-21 
МР$ 0 08 150 (18000/2600 
Потребляемая 5,8 
мощность 13,3 76 4,9 р 12,6 (302/50 
48,75 
(максимальная), мВт 
Потребление в 
пассивном режиме 20- 
22/1,76/7' 1 (24/4 
(энергосберетающем), 0,06/0,9 9,9 0,22/1,76/70 1000 (24/40) 
мкВт 
Время перехода в 
0,16 
активное состояние, 6 -60 <0,01 
мкс 
Затраты энергии на 
выполнение 
операций (средние 
значения}, нДж: 
0,2- 0,018 
— логические 0,67 0,127 1,8 35 (0,42/0,7) 
0,2- 0,036 
— 7 127 2 
арифметические 0,6 0, 35 (0,84/1,4) 
Е жж 
— умножение 1,33 0,127 1,25 027 15 


3,5 __ (27,5/46) 
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— операции с 0,2- 0,064 
памятью 198 Уи тля 3,5 (1,54/02,56) 


* средние по семейству 
** программная реализация умножения 


Как видно из таблицы 4.4, процессоры ЅЕАфгіћ выигрывают по 
показателям энергоэффективности в активном режиме, 
производительности по отдельным ядрам и суммарной 
производительности. Также большим преимуществом является очень 
малое время реакции на событие, высокая скорость выдачи данных на 
внешние выводы — до 90 МГц. Наиболее близки по этим показателям 
процессорные ядра АУКЗ2 и АВМ Сопех-МЗ [8-14]. Процессор 
проигрывает в операциях типа умножение, умножение с накоплением, 
деление, поскольку они в нем реализованы программными средствами. 
Также может несколько снизить производительность ограниченный 
набор команд и необходимость динамической замены кода во время 
работы приложений. К недостаткам также можно отнести малый 
размер памяти, небольшой набор периферийных устройств, 
необходимость подключения внешней памяти для хранения 
пользовательских программ. 


Программное обеспечение включает в себя компилятор-симулятор 
языка үегішеҒогіћ, имеющий версии под операционные системы 
МУ/пао\з, Мас О и ТІіпих. Симулятор позволяет производить отладку 
программ, отслеживать состояние регистров и памяти любого из ядер 
процессора [5-7]. При отладке программ одновременно отображается 
состояние всех ядер процессора (отображаются основные регистры 
ядра), выделяются ядра, находящиеся в активном состоянии, 


ІРЕ УепвиеРог, 


Среда уепішеҒогіћ имеет достаточно простую структуру директорий: 


е аосз - содержит документацию на процессор и среду разработки; 
® ргојесіз - директории проектов приложений; 
® уг рабочая директория среды, содержит: 

о поддиректории с настройками среды и компилятора, 
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специфичными для конкретных версий процессора; 
о - файлы с исждными текстами симулятора и 
вспомогательные библиотеки компилятора. 


Как и в большинстве ШЕ, в МепішеҒогіћ присутствует понятие проекта. 
Директория проекта содержит исходный код проекта и несколько 
вспомогательных файлов для запуска приложения. 


Желательно для каждого нового приложения создавать новую 
Директорию проекта. Проще всего это сделать при помощи 
копирования существующей директории проекта и использования ее как 
шаблон. Рассмотрим пример приложения $40Ышк, демонстрирующий 
работу с внешними выводами процессора и с ЦАП, 


Директория приложения содержит следующие файлы: 


р1іпкЕр. УЕ - вывод импульсов с меняющейся длительностью на 
внешние выводы 


замсооЕћ. у? - генерация пилообразного сигнала на выводах ЦАП; 
со991е17-1.У# - переключение состояния пары выводов; 


р1іпксеѕзё.уғ - центральный файл проекта, собирающий отдельные 
его части воедино; 


ргојесі.уғѓр - исполняемый средой файл проекта. 
Компиляция, Симуляция и загрузка кода 


В этом примере, файл ЫшюезЕУЁ определяет, что код будет запущен в 
каждом узле (те. в каждом чипе С18) и что порядок кода может 


доставляться узлу (рисунок 4.11), 


Компиляция 


Программа для каждого узла компилируется в 5 шагов. 


1. Выбирается узел, к примеру; 02 {поае 
2. Определяется адрес, с которого начинается компиляция: 0 ога 
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3. Определяется адрес точки входа для кода: ћеге =р (это делается 
каждый раз перед выходом из узла) 
4. Далее следует исходный код узла. Источник может быть включен в 
файл, компилирован как макро или подключен. 
5. Вызывается поае} в конце кода каждого узла, 


В этом примере директивы { поде ога =р и поае} используются в 
основном в главном файле приложения, но оны могуг быть 
использованы и в макросах или подключаемых файлах, как 
представлено в В1іпкІеа. 


Рис. 4.11. Вид файла Віпкеіеѕі.уѓ 


Подключаемые файлы и определение путей файлов 


Файлы загружаются относительно директории проекта, директории 
установки среды или относительно указанных директорий (полный 
путь). Слово +іпс1џдӢе" ( а п) на входе берет строку пути и 
выделяет имя файла из входного потока. 
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Для загрузки файла, находящегося в директории проекта, используется 
ілс1џӣе <Е11епаме>. 


В заголовке файле подключается файл с библиотеками, специфичными 
для текущей версии процессора, надстройки симулятора, библиотеки 
для формирования загрузочного бинарного кода: 


у УЕ +іпсшйе" с7л01лотшсопйв.Ё" 
у УЕ +іпсце" рюо.Р' \ Но 006 
у УЕ +іпсіе" Іоайег,Ё' \ АКегпае этеат Биег 


Симуляция 


Когда исходный код скомпилирован, объектный код для каждого узла 
располагается в виртуальном пространстве, представляющим собой 
содержимое КОМ и ВАМ каждого узла. Оттуда мы можем 
скомпилированный объект переслать в реальный процессор, используя. 
Как правило, во время симуляции пропускается процесс загрузки и 
выполнение программы начинается так, как будто весь код уже загружен 
в процессор ЗЕАЮГИ. 


Команда геѕеб запускает симулятор так, как будто код уже в КАМ 
ЗЕАЮПН. Альтернативно, мы можем подключить тестовую плату, 
которая симулирует внешнее подключение. Командой ромег мы 
говорим симулятору симулировать процесс загрузки перед запуском кода. 
приложения. 


Команда з1то1Таее (короткий вариант зум ) запускает процесс 
симуляции. После выполнения - появляется двумерный массив, 
отображающий статус всех ядер. Нажатие пробела выполняет один шаг 
симуляции работы процессора (по умолчанию, скорость — один шаг на 
нажатие). 


Основные команды симулятора 


®* зіпц1аёе ог зіт - запускает или останавливает процесс 
симуляции; 

® <5расе-раг> - шаг симуляции; 

® <апу-кеу> - останавливает симуляцию; 
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® (п) зебмах - устанавливает максимально возможное число 
шагов симуляции – п. Симуляция останавливается по достижении 
заданного числа шагов или после нажатия на клавишу -1 — 
запускает бесконечную симуляцию. Значение по умолчанию - ;. 

Ф ( п) зеіѕіер - Симуляция выполняется без обновления 
экрана в течении п шагов по умолчанию =1 ; 

® (п) арбо - Симулируется п шагов без отображения, после чего 
симуляция завершается. Для продолжения требуется повторный 
запуск з1то1абе. В это время возможно обновление значений 
ѕеітпах, ѕеіѕіерѕ, 

® хаёсћ4 – вывод детальной информации по четырем выбранным 
ядрам, например - 03 04 05 -1 мабсћ4 отобразит состояние 
19, 20 и 5 ядер. 


Следующие два рисунка отражают, как выглядит процесс симуляции в 
ЅуійЕогћ, Первая – перед процессом симуляции. Вторая после 
выполнения 273 шагов (рисунки 4.12, рисунки 4.13). На обоих рисунках, 
красным обозначены узлы, которые активны в данный момент. Черные 
узлы - спят (в состоянии покоя/низкого энергопотребления), ожидая 
инициализации/запуска через порт, или завершения процесса обмена 
данными с соседними узлами. 


Гаметтныовосто. И ЧИН, Е А. айии 
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Рис. 4.12. Дисплей после запуска симуляции приложения 


Рис. 4.13. Дисплей после 273 шагов 
Загрузка кода в процессор 


После того, как приложение скомпилировано и отлажено в симуляторе, 
следующий шаг — загрузка кода в чип ЅЕАќогіћ, Единственный путь 
поместить приложение в ЗЕАЮГИ – послать его на один из выводов, 
способных загрузит приложение через внешний вывод. Каждый из 
узлов ЗЕАЮНЬ, который имеет загрузочный драйвер понимает протокол, 
созданный для загрузки приложения. Обычно это ѕрі интерфейс или 
асинкронный последовательный порт (точнее ядра, имеющие загрузчик 
с асинхронного порта), реже синхронные линии или интерфейсы 
ЅЕВЮЕ5. 


Наиболее простой путь синтезировать загрузочный код для процессора - 
используя слова из библиотеки рюоБР , модифицированной 
Советовым. 


Например, следующий пример иллюстрирует создание загрузочного 
образа для ѕрі-флеш памяти для всех 40 ядер процессора: 
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тасго: $40>32 
32 31 30 20 10 00 01 11 
21 22 12 02 03 13 23 33 
З4 24 14 04 05 15 25 35 
36 26 16 06 07 17 27 37 
38 28 18 08 09 19 29 39 
40 >5ігеаш 
тасто; 


0 хподе 540>32 ЅігеатЕ1аѕћ Ъѕауе Ъћпк,Біп 
Для загрузки с ѕегіа используется: 

0 хподе 540>33 хѕегіа] ѕегіаі Ып 
Аналогичное макро определение $40>33; 


тасго; 540>33 

33 32 31 30 20 21 22 23 24 25 
26 27 28 18 17 16 15 14 13 12 
11 1000 01 02 03 04 05 06 07 
08 09 19 29 39 38 37 36 35 34 
40 >5теаш 

тасго; 


Первые шаги программирования мультикомпьютеров 
ЅЕАҒОКТН40 


Введение 


Подход к программированию мультикомльютеров ЅЕАіогіћ во многом 
существенно отличается от программирования многоядерных 
процессоров общего назначения. Это выражается в специфике среды 
разработки, структуре процессора (массовый параллелизм, 
распределенная память), сокращенный набор команд, небольпюй объем 
памяти для оперативного кранения программ и данных. 


Простая арифметика 
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В данном разделе рассмотрим простые примеры, иллюстрирующие 
работу с константами, переменными и математическими операциями: 


® сложение/вычитание переменной с константой; 
® различные варианты умножения — сокращенный, подпрограмма, 
вызов слов ПЗУ; 


Задача первая – написать программу для двух соседних ядер, одно из 
которых складывает два числа, другое вычитает, после чего они 
обмениваются результатами операций. 


Для начала, каждое из ядер должно настроить один из индексных 
регистров на порт соседнего ядра, положить на стек два числа, 
произвести назначенную операцию, записать результат в 
коммуникационный порт и получить данные от соседа (рисунки 4.14). 
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м 20 


азупс вегза1 / Е 


зупо за Ча1 /2, 


Рис. 4.14. Схема передачи данных между ядрами при обмене 
результатами операций 


Возможный источник взаимной блокировки ядер – момент передачи 
данных. Для исключения блокировки, одно из ядер должно начать 
процедуру обмена с чтения порта, другое с записи. Графически процесс 
взаимодействия ядер достаточно удобно изображать в виде диаграммы 
последовательностей действий [17] (рисунки 4.15). 
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Запись адреса 
порта Прв 


индексный регистр 


за 


Многоядерные процессоры 


20 


| Запись адреса 


15 та Орв | 
{19 р 


{индексный регистр і 
а 


1Передеть суммур 
портр... 


Рис. 4.15. 
результатами 


Тк. в системе 


Положить на стек уг 


{Положить на стек 


Диаграмма взаимодействия двух ядер при обмене 


команд процессора отсутствует команда вычитания, ее 


придется реализовать, как сложение с числом в дополнительном коде. 


\ макросы, определяющие операции сложения и вычитания чисел на ст 


тпасто: ада 


. + \ сложение 


тасто; 


тпасто: $0 
поќ1#. + 
айа 


тпасто; 


\ тпасго; 


\ вычитание 
\ перевод числа на стеке в доп. код 


\ зададим пару констант 


10 сопѕіалі х 
5 сопуап у 


\ пусть ядро 10 выполняет сложение, ядро 20 - вычитание 
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\ тк. сложение завершится быстрее, 10е ядро первым выполнит чтение 
\ дополнительно это позволит на некоторое время снизить энергопотре 


10 {пое 0 оге ћеге =р '---и#а! \ 
х#уй ада \ х+у 
@а \х+у х-у 
оуег Іа \х+у х-у 


пойе} 


20 {поде 0 огр ћеге =р '---и#а! \ 
х#у#ѕи\х-у 
\а @а \х+у 


пойе} 


При необходимости (например, многократное использование в коде 
программы), вычитание можно оформить в виде слова, 


00(1#.+.+ 


Следующий интересный момент связан с выполнением операции 
умножения на данном процессоре, Аппаратного умножителя в 
процессорных ядрах нет, и умножение реализуется программно на базе 
команды +*, 


+ * используется в качестве строительных блоков для перемножения 
двух чисел, находящихся в регистрах $ и А. Работает по принципу 
вычисления частичных произведений (сложение-сдвиг) [18]. Результат 
размещается в регистрах Т и А, которые работают при этом как 36- 
битный сдвиговый регистр. В Т (вершина стека) — старшая часть, в А — 
младшая. 


Если бит 0 (25В) в А равен 0, то 37-бит (бит расширения знака) 
регистра ТА просто сдвигается вправо на один бит. Если он равен 1, 
содержимое 5 прибавляется к Т, перед тем, как 37-битный регистр ТА. 
будет сдвинуг. Младший бит Т сдвигается в старший бит регистра А. 
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Код для ядра 30 иллюстрирует беззнаковое перемножение 18-битных 
чисел. В А помещается один множитель, вершина стека обнуляется, 
второй элемент стека содержит второй множитель. 


30 {поде 0 огр ћеге =р \ "ручная" реализация беззнакового умножения 
8 
\1=0 ѕ=х-любого знака а=у-положительный 
155 # а! -2200 #\1=4 а=5 
Чир@р \-- 45=4 1=4 а=5 
хог \-- 5=4 1=0 а=5 
17 # Юг. +* шпехі\-- ѕ=х(=х*у Һа=х*у 1 
@Ъ 


пойе} 


В том случае, если оба или один из сомножителей имеет небольшую 
размерность, можно использовать следующий прием — в регистр А 
помещается число с наименьшим количеством разрядов, число на 
вершине стека сдвигается вправо на это же число разрядов и 
выполнить команду +* столько раз, сколько значащих разрядов в 
регистре А. 


Пример ниже демонстрирует умножение 25 на З, 


00 {пое 0 огр ћеге =р \ умножение малоразрядных чисел 
ЕЯ 
25#2*2*З# @ра!. +*. +* 
@Ъ 


пойе} 


Для экономии пространства ОЗУ можно использовать вызов слова * из 
ПЗУ ядер (есть практически во всех ядрах). Кроме всего прочего, это 
слово поддерживает знаковое умножение, 


01 {пое 0 огр ћеге =р \ работа подпрограммы умножения 
--и#Ъ 
155 # -2200 #* 2/ 
@Ъ 


пойе} 


02 {пое 0 огр ћеге =р \ работа подпрограммы умножения 
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---0#Ы 
155 # 2200 # * 2/ 
@Ъ 


пойе} 
Обмен данных между ядрами 


Рассмотренная ниже задача носит учебный характер и врятли будет 
иметь смысл вне рамок запуска ее на симуляторе. Состоит она в 
следующем — надо организовать передачу слова между всеми ядрами 
процессора по цепочке — чем-то напоминает старую игру "Питон" - 
только роль клеток будут исполнять ядра процессоров, 


Для начала зададим путь обхода процессора – рисунок 4.16, 


Рис. 4.16. Путь передачи слова по ядрам процессора 


Алгоритм работы каждого из ядер предельно прост — считать слово 
данных от соседнего ядра, согласно месту в схеме обхода и передать 
следующему по обходу ядру Исключение составит первое ядро в 
цепочке — оно только инициирует передачу слова. 


Программный код ядер будет одинаковым - различаются только адреса 
портов. Снизить объем работы по написанию исходного текста можно, 
используя макроопределения (они же макросы). 
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Одно из возможных решений приводится ниже, 


Макрос, реализующий описанный выше алгоритм будет иметь 
следующий вид: 


тасто: ре} ( $ $ош -- ) 
; аи 
феге =р 
#1 #а! 
@а іцр Ъ 
тасто; 


Он задает точку старта процессорного ядра, берет со стека компиляции 
пару чисел — адресов портов источника и приемника слова и 
компилирует код, отвечающий за прием-передачу слова. 


Согласно структурной схеме процессора выделим те пары портов, 
между которыми происходят передачи — источник-приемник. Для 
каждой из пар определим макрос с нужными для данной пары адресами 
портов; 


тасто: |, ( $іп Фош ) 
6 ‘г--- ре 
тпасто; 


тасто: га, ( $іп Фош ) 
ит--- '-4-- ріре}, 
тасто; 


тасто: ди, ( $ $01: ) 
-4-- ---арре, 
тасто; 


тасто: ші, ( Фіп Фош) 
=--ш-а-- ре 
тасто; 


тасго: ш, ( $ фош) 
== рірер 
тасто; 
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тасто: іг, ( $іп фош) 
'-4-- 17--- рірер 
тасго; 


тасто: гі, ( $1 $01 ) 
п--- Е рер 
тасто; 


тасго; №, ( $ фош ) 
"1 '---и ре 
тасто; 


Как видно из исходного кода, компилятором допускается использование 
вложенных макросов. Последним шагом зададим код для каждого из 
ядер. 


\ начальное ядро 
32 {поде 0 огр ћеге =р '--+ #1 0 # 1Ь т--- # а! @а пойе} 


\ ядра с направлением передачи от левого порта правому 
31 {поде 1, ойе} 35 {пойе |; поде} 37 {пойе І, пойе} 33 {пойе В, пойе} 


\от правого - нижнему 
30 {поде га, пойе} 1 {по4е та, поде} З {(пойе га, пойе} 5 {тое га, пойє 
7 {пю4е га, пойе} 9 {поде га, поде} 


\ от нижнего - верхнему 
20 {поде и, поде} 11 {поде ац, пойе} 13 {поде 4и, пойе} 15 {поде дц, ти 
17 {пое 40, пойе} 19 {пое аи, пойе} 


\ от верхнего - нижнему 
10 {поде ца, пойе} 12 {пойе оа, пойе} 14 {поае циа, пойе} 16 {пойе ий, п 
18 {поде ца, пойе} 29 {пойе иа, пойе} 


\от верхнего - левому 
21 {поде ц, поде} 23 {пойе ці, пойе} 25 {пойе ц, поде} 27 {пойе и, пойє 


\ от нижнего - правому 
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0 {поде г, пое) 2 {пойе йг, пойе} 4 {пойе аг, пойе} 6 {по4е аг, пойе} 
8 {поде йг, поде} 39 {по4е аг, пойе} 


\ от правого - левому 
34 {поде ті, пойе} 36 {пойе гі, поде} 38 {пойе ті, поде} 


\ от левого - верхнему 
22 {пойе №, пойе} 24 {пойе |, пойе} 26 {поде №, пойе} 28 {пойе №, поде 


Запуская на симуляторе, можно видеть примерно следующее — область с 
активными ядрами перемещается согласно заданному нами пуги 


(рисунок 4.17), 


Рис. 4.17. Перемещение слова по ядрам процессора 
Работа с периферийными устройствами 
АЦП 


Запустим АЦП на ядре 36 и данные, генерируемые на нем будем 
выдавать в параллельном виде на линиях ядра №5. В этом случае в 
работе приложения будут задействованы несколько ядер (а именно - 36, 
26, 16, 15 и 5-е), выполняющих каждое свою задачу Ядро 36 считывает 
данные с АЦП, ядра 26, 16, 15 служат для передачи значений АЦП 5-му 
ядру и ядро 5 по мере поступления данных выставляет их в 
параллельный порт. Путь данных показан на рисунке 4.18. 
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ПЕ 
ЯН 


Рис. 4.18. Вывод данных с АЦП на параллельный порт 


Диаграмма последовательностей выглядит следующим образом — 
рисунке 4.19, 
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Рис. 4.19. Диаграмма последовательностей работы ядер 
ЗЕВОЕ$ 


Процессор обладает двумя высокоскоростными последовательными 
интерфейсами -5ЕВРЕЅ, расположенными в двух ядрах по разные 
стороны процессора — в 1мив 31м. Средняя скорость передачи данных 
по 5ЕЕРЕ$ около 400 Мбит/с, режим передачи полудуплексный. 


Для выдачи данных через 5ЕВРЕЅ последовательность действий 
следующая – надо записать передаваемое слово по адресу ПАТА, 
включить кольцевой тактовый генератор приемопередатчика (запись 
$20000 по адресу ТОВ), записать любое слово по адресу ОР (ожидание 
окончания передачи предыдущего слова), выключить тактовый 
генератор после задержки в 18 тактов. 


Пример бесконечного цикла выдачи значения через ЅЕВРЕЅ 


01 {поде 0 огр ћеге =р 
"Чай # а! \ инициализировать регистр а значением АТА 
Верт 
$0505 # !а \ записать число по адресу в регистре а (Паѓа) 
$20000 # їосѕ # Ъ! Ь \ записать в Ъ адрес іпг 
\ и записать по этому адресу код включения тактового генеротора 
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О# ар '---и# Ъ! № — \ пустая запись по адресу ОР 
| 18 # Юг. шехЕ \ цикл ожидания окончания передачи 


Зосв# Ы Љ \ выключение генератора 
| 10000 # Юг. ипехЕ | \ пауза между передачами (около 15 мкс) 
арап 
пойе} 


Цифровая фильтрация - КИХ-фильтр 


Одно из часто встречающихся применений данных процессоров 
(собственно оно является одним из целевых для процессоров этой 
серии) - обработка сигналов в реальном времени, 


Рассмотрим один из наиболее распространенных алгоритмов цифровой 
обработки сигиалов – цифровую фильтрацию [18]. В ряде областей 
применения популярно использовать КИХ или БИХ фильгры довольно 
высоких порядков — с числом коэффициентов от десяток, до нескольких 
сотен. 


Может показаться, что ядра процессора $ЕАЮг40 не смогут 
поддерживать вычисления такого рода фильтров ввиду небольшого 
объема памяти, Но в данном случае первое впечатление обманчиво, В 
большинстве случаев экономить объем ОЗУ позволяет использование 
функций, прошитых в ПЗУ ядер. Это не только простые арифметические 
операции, но и целые процедуры, наподобие аппроксимации 
полиномами или табличной интерполяции — в этом случае расход 
памяти идет только на хранение ключевых точек. Аналогичная функция 
разработана и для поддержки цифровой фильтрации [18]. 


Слово ѓарѕ позволяет внутри определений задавать таблицу 
коэффициентов фильтра и его начальные значения [5], Например, КИХ 


фильтр на одном ядре; 


: бг-Кегпе1 4 # 
арѕ:а0, 0, а1, 0, а2, 0, аз, 0,ад, 0, 
:6г(Віп__ ош ) аир дир хог @Ъ ћг-кегпе] гор ; 


КИХ фильтр, задействующий несколько ядер: 
опр йг ѕїагі дир дир хог ФЬ ёг кеге! 1 Ъ; 
опр бг ті @Ъ риѕћ ФЬ рор ёг Кетпе! Ъ №; 
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: пр йг епі @Ъ риѕћ @Ъ рор вг_Кегпе] дгор ; 


БИХ фильтр Чебышева: 

:1р.15.2р 4 # їарѕ: $4038, 0, $8070, 0, $4038, һеге0, 
$19039, 0, $36187, 0, (һее), 

: Ш (п_ п) риѕћ дор дор хогрор }.15.2р агор дир !а; 


Если ядро будет использовано приложением тольк для вычисления 
фильтра, то для хранения отсчетов сигнала и юэффициентов фильтра 
можно отвести порядка 50-58 слов ОЗУ. При этом для программной 
части останется от 6 до 14 слов, что с учетом высокой плотности 
бинарного кода даст 24 — 56 команд языка, 


Таким образом, в одном ядре может храниться и обрабатываться от 25 
до 29 отсчетов входного сигнала и столько же коэффициентов. Если 
использовать все ядра для вычисления фильтра, получим значение 1000 
-1150 коэффициентов. В реальной ситуации, конечно показатели могут 
быть меньше из-за возникающей потере точности — обработка данных 
ведется в целочисленном формате с 18-битной точностью. Как 
правило, удовлетворительные показатели достигаются при фильтрах 
порядка нескольких десятков. 


В некоторых случаях для вычисления не изменяющихся в процессе 
выполнения программы значений функций можно использовать 
ресурсы компилятора, предварительно вычисляя нужные значения, 


Для примера возьмем КИХ-фильгр нижних частот с 46 
коэффициентами. В реализации фильтра задействуем три ядра 
процессора — первые два ядра вычисляют по 15 произведений 
коэффициентов с отсчетами входного сигнала, третье остальные 16. Для 
проверки на отладочной плате используется еще пара ядер — первое 
используется, как источник сигнала (сигнал формируется программно 
или формируются отсчеты АЦП), второе выдает сигнал на ЦАП, 


Структурная схема вычислений с привязюй к ярдам процессора 
выглядит следующим образом – рис.4.7. 


На рисунке 4.20 представлены осциллограммы реакции фильгра на 

одиночный импульс. Входной сигнал обрабатывается со скоростью, не 

превышающей скорости вычисления наибольшей частичной суммы у11 
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или 522. В данном случае реализуется конвеейрный вариант 
параллельных вычислений — ядро 27 выдав промежуточную сумму 
фильтра способно принимать новый отсчет сигнала, Ядро 37 также 
может задавать меньшую скорость вычисления отсчетов в соответствии 
с требованиями приложения, Синхронизация обеспечивается за счет 
передачи между ядрами промежуточных сумм и отсчетов входного 
сигнала. 


На рисунке 4,21 также хорошо заметно запаздывание выходного сигнала 
относительно входного, составляющее величину равную произведению 
количества коэффициентов фильтра на время между двумя 
последовательными отсчетами, 


Для фильтра в примере максимальная частота следования отсчетов 
входного сигнала составляет порядка 83 КГц. Максимальная загрузка. 
оперативной памяти ядер 65% (занято 42 слова из 64). Потеря точности 
обработки сигнала при использовании 18-битной арифметики 
примерно 4-5% (из-за ошибки округления коэффициентов). Скорость 
работы фильтра можно повысить, уменьшив количество коэффициентов 
фильтра, рассчитываемых одним ядром, увеличив при этом количество 
задействованных ядер, 
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Рис. 4.20. Структурная схема вычисления КИХ фильтра на нескольких 
ядрах процессора ЗЕАЮГЬ 


Рис. 4.21. Осциллограмма одиночного импульса исходного сигнала и 
импульсная характеристика фильтра 
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Исходный код ниже. 


\ первый блок фильтра 
38 {поде 0 огр 
: Яг-Кегпе] 15 # 1арз а0,0,а1,0,а2,0,а3,0,а4,0, 
а5,0,а6,0,а7,0,а8,0,а9,0, 
а10,0, а11,0, а12, 0, а13,0, а14,0, а15,0, 
:юпр-бг-каге '--1- #Ъ! дир дир хог @Ъ бг-Кегпе] '-4-- #Ъ!1Ъ №; 
еге =р 
Беріп 
юпр- Ёг-5(аге 
араіп 
поде} 


\ середина фильтра 
28 {поде 0 огр 
; бг-Кегпе 15 # їарѕ а16,0,а17,0,а18 ,0,а19,0,а20,0, 
а21,0, а22,0, а23, 0, а24, 0, а25,0, 
а26,0, а27,0, а28, 0, а29,0, а30, 0, а31, 0, 
:юпр-ћг-тій '-4-- #Ъ} @Ъ риѕћ @Ъ рор йг-Кегпе] ‘г--- # 5! !Ь 1; 
Беге =р 
Берт 
юпр-Вг-п4 
авап 
поде} 


\ выходной блок фильтра 
29 {поде 0 огр \һеге =р 
: бг-Кегпе 13 # їарѕ а32 , 0, а33, 0, а34,0, а35, 0, а36,0, 
а37 ,0, а38, 0, а39, 0, ад0, 0, а41,0, 
а42,0, а43,0,а44, 0, а45,0, 
: юпр-бг-епа 'г--- #Ъ! @Ь риѕћ @Ь рор ћг-Кегпе] ігор ; 
һеге =р 
Беріп 
юпя-Вг-епа '-4-- # Ъ! 16 
авап 
пойе} 


\ выдача выходных отсчетов на ЦАП 
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39 {поде 0 огр Вете =р 
Берт 
’-4-- #1 @Ь $100 # . + $155 # хог іосѕ # а! 'а 
араіп 
пойе} 


Вычисление преобразования Фурье через преобразование Хартли 
Введение 


Рассмотрим задачу вычисления дискретного преобразования Фурье [18, 
19] на процессоре ЅЕАЌолћА0. Ограничимся вычислениями в формате 
фиксированной точкой - т.е, толью целочисленные операции, Для 
вычисления преобразования Фурье требуется введение комплексной 
арифметики. В данном случае ограничимся только действительными 
числами при помощи дополнительного преобразования т 
преобразования Хартли, которое является чисто действительным, Имея 
вычисленные отсчеты преобразованиям Хартли можно получить как 
действительные и мнимые коэффициенты Фурье преобразования, так и 
спектр мощности и фазовый спектр. 


Дискретное преобразование Хартли вычисляется следующим образом: 
Н (у) =1/М* (Зима ( (6=0;М№-1) Е(Е)*саз(2*ра*е*у/М))); 
где саѕ (у) =соз (у) +ѕіл (у). 


Одним из замечательных свойств этого преобразования является то, что 
обратное преобразование вычисляется по аналогнчной формуле, за 
исключением масштабирующего коэффициента 1 / №. 


С преобразованием Фурье оно связано следующим образом, 
гармоники спектра мощности: 

Фр (м) = (Н (у) ^2+Н (М-у) ^2) /2; 

фазовый спектр: 


Фф (у) =агсёд ( (Н (у) -Н (М-у) ) / (Н (у) +Н (М-у))). 
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Таким образом, задача вычисления преобразования Фурье разбивается 
на два больших этапа - вычисление преобразование Хартли и уже на 
его основе преобразования Фурье. 


Трудоемкость задачи может быть оценена в №^2 операций сложения и 
умножения на вычисление Н (у), плюс ЗМ умножений и сложений на 
получение отсчетов преобразования Фурье. Прямое вычисление Фурье 
преобразования даст порядка (2М№) ^2 операций сложения и 
умножения. Для быстрого преобразования Фурье имеем 2№109М 
умножений и ЗМ№1о3М сложений. Быстрое Преобразование Хартли 
имеет порядка 3 /2М109М сложений и №М1о9М умножений. 


Разбиение задачи 


Учитывая скромные ресурсы процессора по встроенной оперативной 
памяти, ограничимся преобразованиями с небольшим числом №. Для 
ускорения вычислений ДПХ распределим вычисления коэффициентов 
преобразования на различные ядра процессора - пусть каждое ядро 
вычисляет один или несколько коэффициентов преобразования. 


Рассмотрим случай №=16. Для него возможен вариант, при котором 
одно ядро процессора вычисляет один коэффициент (аналогнчная 
ситуация возможна и при количестве отсчетов сигнала порядка 32-х). 
То количество операций выполняемых ядром можно оценить как №+ 3 
операций сложения и умножения, Вычисления тригонометрических 
функций целесообразно выполнить табличным методом - каждое ядро 
будет иметь свой фиксированный набор значений функции сах () и 
ахсід (). 


Для удобства в вычислениях будут задействованы центральные 16 ядер. 
Предполагается, что отсчеты сигнала поступают в процессор 
посредством одного из периферийных ядер. В рассмотренном ниже 
примере источником сигнала является ядро №10 (можно предполагать, 
что оно получает сигнал с внешиего АЦП), ядро №20 принимает сигнал 
после подачи его на преобразователь и может передать его на 
дальнейшую обработку другим ядрам. Ядро, вычисляющее коэффициент 
преобразования ждет отсчет входного сигнала, копирует его себе, 
передает следующему ядру вычисляет произведение с накоплением. 
Результаты преобразования остаются в ядрах. 
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Диаграммы потоков данных 


В итоге имеем следующую диаграмму потоков данных при вычислении 
преобразования Хартли, 


[20]<-609-1211<-609-..<-128] 
^ 


| 

Ко 

| 
[19]-К9->[11]-К0->..->[18] 


11е ядро вычисляет Н (0), 12е - Н(1), ... 28е Н(8) итд. 


На втором этапе - вычислении Фурье спектра диаграмма потоков 
данных для рассматриваемого М выглядит следующим образом. 


[20] [21] [28] 

Р н(8) 

НКО) Н(7) 

[10] ш [18] 
Где "|" соответствует взаимному обмену коэффициентами, В силу 


симметрии ДПФ относительно №2 для вычисления спектра мощиости 
достаточно произвести вычисление толью на половине ядер. 


Алгоритмы работы ядер 


Алгоритм работы ядер, вычисляющих коэффициенты преобразований, 
практически одинаюв, и может быть представлен в виде 
последовательности нескольких шагов, 


начальная инициализация, промежуточная сумма 5=0 ; 
цикл от 0 до 15 из следующих ниже шагов; 
прием входного отсчета сигнала - # (6) ; 
копирование сигнала себе; 
передача отсчета сигнала соседнему ядру; 
выборка из таблицы значения саз (уі) ; 
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7. вычисление произведения р=р* саз (уі) ; 
8. вычисление промежуточной суммы ѕ=з+р ; 
9. если отсчет не 16й, возврат на начало цикла - п.3. 
10. Н(у) =5; 
11. прием Н (М№-у) ; 
12. вычисление Фр (у) = (Н (у) ^2+Н (М-у) ^2) /2; 


Ниже приводится один из вариантов реализации описанного 
алгоритма, 


Основная программа 
ћагі2,уЁ реализует этапы с 1 по 10й, 
Хоошгіег2,Ёу этапы 11, 12. 
файл һагђеу. (еѕї,уЁ 
Код; 
УУЕ +іпсӣе" с7Сг01/готсопір,'\ подключение функций КОМ нужной | 


псе <рађћ>\Ершађћ,Ё\ для вычисления таблиц функции саз() 
подключаем библиотеку плавающей точки компилятора ЅміЌЕогћ 


16 УАГОЕ шит \ = № количество отсчетов 
0 УАГОЕ у \ номер отсчет Хартли спектра 


іпсџде сое м \ определяем слова, вычисляющие саѕ 
в формате с фиксированной точкой 


10 {пойе \ ядро выдает 16 последовательных отсчетов сигнала 
0 огр 
Ћеге =р 
т--- НБ! 
1#1Ъ 
1#1Ъ 
1#1Ъ 
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1#1Ъ 


ож! 
ож! 
ож! 
ож! 


Ўсе 


1#1 
191 
18! 
18! 


С; 


о# 1 
О 
О 
0 
} 


08! 
пое 


(код для ядер практически одинаков, за исключением портов приема и 
определяем несколью переменных, позволяющих настроить порты в к 
) 

О УАГОЕ іп 

0 УАГОЕ ош_ 


ОТО у\ - номер отсчета Х 
11 {пое 0 огр \ установка начального адреса компиляции 
\ задание таблицы коэффициентов саѕ(у() 
ое урау 
Ћеге *су =р \ включение режима расширенной арифметики 
т--- ТО ш_'--Е ТО ош іпсие ћаг2.уЁ 
\ настройка переменных и переход к вычислению коэффициента НС 
\ -- ВЫ 
'---0 ТО ш_'---и ТО оц шсюде юшчег2.мЁ 
\ вычисление отсчета мощностного спектра Фурье - Фр(у) 
\-- МИ 
поде} 


1ТО Уу 
12 {поде 0 огр 
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СОБЕ а рр ВАКу 
Ћеге *су =р \ включение режима расширенной арифметики 
--- ТО іп т--- ТО ош іпсішде ћаг2,уѓ 
”---и ТО ш_‘---и ТО ош ісце Ёоогіег2.уЁ 
поде} 


2ТОу 
13 {поде 0 огр 
О БРЕТТ 
Ћеге *су =р \ включение режима расширенной арифметики 
т--- ТО іп "--- ТО ош іпсішде ћаг2.уЁ 
'---0 ТО ш_'---и ТО ош іпюсіше ќоџгіег2.,уЁ 
поде} 


ЗТОУу 
14 {поде 0 огр 
беу 
Ћеге *су =р \ включение режима расширенной арифметики 
--- ТО іп т--- ТО ош_ іпсіше Вам МЕ 
'---0ТО іп “---0 ТО ош иешае ќоџгіег2.уЁ 
пое} 


4ТО у 
15 {поде 0 ога 
сое, кН 
Ћеге *су =р \ включение режима расширенной арифметики 
'г--- ТО іп "--- ТО ош шсыае Ваи2. УЕ 
'---0 ТО ш_'---и ТО ош іпсие ќоџгіег2,уЁ 
поде} 


5 ТОу 
16 {поде 0 огя 
сое, ууу уяуьья 
Ћеге *су =р \ включение режима расширенной арифметики 
*--Е ТО іп т--- ТО ош_ асе Вам м 
”---и ТО ш_‘---и ТО ош ісце ќоџгіег2,уЁ 
поде} 


6ТОу 
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17 {поде 0 огр 
сое у 
Ћеге *су =р \ включение режима расширенной арифметики 
т--- ТО іп _'--- ТО ош іпсішйе ћагі2 м 
'---0 ТО ш_'---и ТО ош ісце ќоогіет2,уЁ 
поде} 


7ТОу 
18 {поде 0 огр 
СОВЕ; аня 
Ћеге *су =р \ включение режима расширенной арифметики 


'-- ТО п "---0 ТО ош. псіие Ваг2 м 
'---0 ТО ш_'---и ТО ош ікае Юонет2 м 
поде} 
8ТОу 
28 {поде 0 огр 
СО ких 


еге *су =р \ включение режима расширенной арифметики 
'---0 ТО ш_'--ЁЕ ТО ош_ мешае Ваг2 м 
930 # ~штпоа \ масштабирование коэффициентов 
'---0ТО ош ош #Ъ аир № 
\ передача результата ядрам, вычисляющим отсчеты Фурье спектра 
поде} 


9ТОу 
27 {поде 0 огр 
сое 
ћеге *су =р \ включение режима расширенной арифметики 
”--- ТО іп т--- ТО ош_ шешае Ван МЕ 
930 # ~штой \ масштабирование коэффициентов 
'---0ТО ош ош #Ъ! аир 1 
поде} 


10ТО у 
26 {поде 0 огр 
соебуз уу 
ћеге *су =р 
ТО ш_'--ЁЕ ТО ош_ шее Ваи2 м 
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930 # ~ш/той \ масштабирование коэффициентов 
'---0ТО ош ош #Ъ! аир 1Ь 
поде} 


11 ТОу 
25 {поде 0 огр 
О, нина 
ћеге *су \ включение режима расширенной арифметики 
”--- ТО іп т--- ТО ош шешае Ва м 
$3 # ~штой \ масштабирование коэффициентов 
'---0ТО ощ ош #Ъ аир 1 
поде} 


12 ТО у 
24 {поде 0 огр 
Сое уе ир къ 
ћеге *су =р \ включение режима расширенной арифметики 
т--- ТО іп "--Ь ТО ош_ шешае Ваг2 .УЁ 
930 # ~штоа \ масштабирование коэффициентов 
'---0ТО ош ош_ #Ъ! аир № 
пое} 


13 ТО у 
23 {поде 0 огр 
сое, ууз уан 
ћеге *су =р \ включение режима расширенной арифметики 
”--- ТО іп т--- ТО ош_ шешае Ват МЕ 
$30 # ~штой \ масштабирование коэффициентов 
'---0ТО ош ош #Ъ! аир Ъ 
поде} 


14ТО у 
22 {поде 0 огр 
сое з уузу 
ћеге *су =р \ включение режима расширенной арифметики 
т--- ТО ш_'--Е ТО ош шешае Ваг2 м 
930 # ~ш/той \ масштабирование коэффициентов 
'---0ТО ош ош #Ъ! аир 1 
пойе} 
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15ТО у 
21 {поде 0 огр 
ое 
ћеге *су =р \ включение режима расширенной арифметики 
”--- ТО іп т--- ТО ош_ шешае Ват м 
930 # ~штой \ масштабирование коэффициентов 
'---0 ТО ош_ ош #Ъ! ашр № 
поде} 


геѕеё \ сброс процессора 

11 маюсь 10 ѕеіѕіер \ настройка детального просмотра 
состояния 11-го ядра, задали шаг симулята в 10 "тактов" 

зип \ запуск симуляции 


Вычисление коэффициентов Хартли 
Рассмотрим вычисление отсчетов Хартли 


Ядро вычисляет сумму произведений отсчетов сигнала на функцию 
саз (уб): 


Н (у) =5џют ((6=0;№-1) Ё#(Е) *саѕ (2*рі*ё*у/М)) ; 


При необходимости масштабирование коэффициента выполняется 
отдельно. 


Выполняются следующие действия: 


Начальная инициализация, промежуточная сумма $=0 ; 
Цикл от 0 до 15 из следующих ниже шагов; 

прием входного отсчета сигнала - # (6) ; 

копирование сигнала себе; 

передача отсчета сигнала соседнему ядру; 

выборка из таблицы значения саз (уб) ; 

вычисление произведения р=р* саѕ (уі) ; 
вычисление промежуточной суммы $=3+р; 

если отсчет не 16й, возврат на начало цикла - п.3. 

Н (у) =8. 


Е а 


= 
с, 
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Накопление суммы ведется с 36-ти битной точностью, входной сигнал и 


коэффициенты саѕ – 18-разрядные, 
Файл Һагі2.уЁ 
Код; 


О#0#0# 
\ на стеке начальная сумма в формате двойной точности и номер отсчет 
15 # Юг\ начинаем цикл вычисления Н(у) 

\-- 8 916 

Чир дор хог дур . + гор \ очищаем бит переноса 

іп #Ъ! ФЪ\ -- $ ЕКО принимаем входной отсчет 

Чир ош #1 1Ь\ -- 5 511 10) скопировали на стек и передали следую! 


\ выбираем из таблицы коэффициентов саѕ(мі) 

роѕћ\ сохраняем отсчет сигнала -- $ћ $11 г: -- Қ) 

а! @а+ \ -- В 51 саз; а=1+1; г: -- 9 

рор а@ ризВ \ временно сохраняем номер отсчета на стеке возвратов -- 


( умножаем ҚК) на саз(\0) 

учитываем особенности реализации слова * - умноженная на 2 старша; 
- сохранение множимого во втором элементе стека; 

в регнстре а — младшая часть с инвертированным старшим битом 

) 

* 2/\ умножаем и приводим к нормальному виду старшую часть произ 
\ -- 8һ 51 саѕ саз* КО ; г: -- +1 

риѕћ гор рор \ избавляемся от множителя на второй позиции стека 
а@ $20000 # хог \ помещаем на стек младшую часть 

\ -- В 5 уһ у} г: -- (+1; где у=саѕ*{) 


\ производим сложение чисел двойной точности 
\ складываем младшие слова 

ризв а! \ -- $1 $$ г; -- УН1; а=уһ 

рор \ -- $ 81 у} г: -- 1+1; а=уһ 

„+ \ -- 8 њу} г: -- 1+1; а=уй 

\ складываем старшие слова 

роѕћ \ -- $; г: -- 8+уи+1; а=уһ 

а@ |. + рор \ -- %һ+уһ+с =+у11+1; г: -- 1+1; а=уһ 
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рор \ возвращаем на стек сохраненный номер отсчета -- ѕЅћ+уһ+с $+уіг 
пехі \ -- ВУ ВМ +1 
Ягор \ сбрасываем ненужный теперь номер отсчета г -- №Н- отсчет 


Вычисление преобразования Фурье 


Вычисление коэффициентов Фурье спектра ведется на основе 
вычисленных ранее коэффициентов Хартли спектра. 
Последовательность действий следующая: 


1. получаем Н (у) ; 

2. принимаем от соответствующего ядра отсчет Н (М-у) ; 

3. вычисляем коэффициент Фурье спектра мощности Фр (у) = 
(Н (у) ^2+Н (М№-у) ^2) /2; 


Файл Їошіег2.уѓ 
Код: 


\ на стеке вычисленный в ћаг!2,уЁотсчет Хартли (старшая и младшая чан 
930 # ~штоа \ масштабируем коэффициент – делим на М (М=16) --г 
( получившийся остаток можно не учитывать, 
а поскольку переполнения стека в данном процессоре не бывает, 
можно считать ячейки стека ниже Ву пустыми) 
іп #Ъ! @Ъ \ принимаем масштабированный отсчет ҚМ№-у) -- ВУ ҚМ 


\ вычисляем Н(М-у)^2 
Чир \ дублируем 
* \ умножаем 

\ приводим произведение к нормальному виду 
2/ риѕћ дгор рор \ -- ћу В ; а=Р1 
а@ $20000 # хог\ -- Ву ВВ 0]; а=1 

\ временно сохраняем его на стеке возвратов 
риѕћ риѕћ \ -- Ву; г; -- РЬ 2 


\ вычисляем Н(у)^2 


Чир \ дублируем 
* \ умножаем 
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\ приводим произведение к нормальному виду 
2/ риѕћ агор рор \ 
а@ $20000 # хог\ -- НВ Ё; г:-- РЫ РЕ 


\ складываем два числа с двойной точностью, одно из них находится нг 
рор а! рор \ взяли младшую часть слагаемого со стека возвратов -- ЯВ 
. + ризВ \ сложили, результат запомнили на стеке возвратов -- НВ ; а=Ё 
аф . + рор \ сложили старшие части, младшую часть суммы вернули н 

\ на стеке удвоенный отсчет Фурье спектра мощности -- Фрћ Фрі 

\ далее может идти код, нацеленный на последующую обработку или пе 
'-4-- #1 @Ъ \ останов ядра – исключительно для просмотра результат: 


Вспомогательный файл соеЮ.уЁ содержит слова, помогающие 
автоматизировать заполнение таблиц функции са$ (у). 


Файл соеЮ.мѓ 
Код: 


:саз (Ё х -- ; -- саѕ )\ вычисляет целочисленный вариант саѕ(х) 
Яир ќсоѕ Буар Біп Ё $01000 => 1% 5 


; 
:2рмИМ (Мут-- ;#-- 2рмИМ ) \ формирует аргумент для саѕ 
5>Е5> ЕЁ 52607 рі 2,е № № 


; 


: соеЁ ( -- саз [М] са$[М-1]... са$[0] ) 
\ оставляет на стеке М отсчетов в обратном порядке для заполнения тає 
0 пит ?40 
пип у і 2рМУМ саѕ 
-1 +юор 


5 
Результаты 


Оперативная память ядер вычисляющихи Н (у) и Фр (у) загружена на 
92% из которых 27% занято таблицей саз (уб). 


Дамп памяти одного из ядер приведен ниже. 
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Код: 


КАМ М№ойе 12 


адаг даа тппегпопісѕ/сойе 


000 
001 
002 
003 
004 
005 
006 
007 
008 
009 
00А 
00в 
00С 
00р 
00Е 
00Е 
010 


01000 -- 
014Е8 | 
016А1 у 
014Е8 р 
01000 | 
008А9 т 
00000 | 
32757 ! 

32000 } таблица коэффициентов саѕ(мі) 
ЗЕВ18 р 
ЗЕ95Е | 
ЗЕВ18 | 
37000 

32757 

00000 | 
008 А9 -- 


05017 @р+ @р+ @р+ @р- --------------------------------- 


011 00000 


012 
013 
014 
015 
016 
017 
018 
019 
01А 
01В 
01С 
01р 
01Е 
01Е 
020 
021 


00000 

00000 

0000Е 

2Е9В2 риѕћ.. . 

240ЕЗ аир дур хог аир 
2С1ЕЕ . + гор @р+ 
00175 

2997 Ъ! @Ъ дир @р+ 
00105 

29ВВА Ы } риѕћ. 
2ВСЭА а! @а+ рор . вычисление Н(у) 
228В2 а@ риѕћ.. 
134СА са СА * 
ЗОВЕА 2/ риѕћ дгор . 
26Е12 рор а@ @р+. 
20000 
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022 388АА хогриѕћ а! . 
023 2692 рор. +. 
024 2ЕЕВ2 ризв а@ .. 
025 2С19А. + рор. 
026 27016 рор пеж 16 
027 ЗВРВ2 ігор @р+.. 
028 ЗРЕРО 


029 136АЕ сай 2АЕ ~штой 
02А 04В03 @р+ Ь! @Ь апр 


02В 00145 
02С 134СА саїСА * 
020) ЗОВЕА 2/ риѕћ ігор . 


02Е 26Е12 рор а@ @р+. 


022 20000 


030 388ВВ хог ризВ риѕћ дир 


031 134СА сай СА * 
032 ЗОВЕА 2/ риѕћ ігор . 


033 26612 рор а@ @р+. 


034 20000 

035 38САА хогрор а! . 
036 269Е2 рор. +. 

037 2ЕЕВО рићаф@ . + 
038 27ӘА2 рор @р+Ъ!, 
039 00115 

ОЗА 00000 @Ъ апі @Ъ + 
03В 

03С 

03р 

ОЗЕ 

ОЗЕ 


Многоядерные процессоры 


вычисление Фр(у) 


Временные параметры вычислений следующие: 


* вычисление коэффициента Хартли спектра ~ 2940 тактов; 
® вычисление Фурье ~ 350 тактов; 
® общее время выполнения ~ 3320 тактов. 


С учетом того, что такт примерно соответствует 1.4нс, возможно 
выполнение примерно 215000 преобразований в секунду 
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Оптимизкция 


Приведенный выше код для вычисления Н (у) и Фр (у) не вполне 
соответствует форт стилю программирования и более напоминает код 
на ассемблере, что впрочем, для данного процессора не далеко от 
истины, Более оптимальным, с точки зрения структурного 
программирования и экономии места было бы определение слов М*, 
0+ с вызовом их в нужных местах, 


Файл таћ.уЁ 
Код; 


:М* (ху-- рар) 

*2/\ --ху; 

риѕћ агор рор 

а@ $20000 # хог\ -- рһрі 


; 


: 0+ (аһаіЪћЫ -- $8 81) 

риѕћ а! рор \-- аһ а Ы; а=Ъћ 
+ риѕћ\-- аһ; а=Ъћ ; г: -- 51 
а@ . + рор \ -- зв 


; 


Код для ядер изменится следующим образом. К примеру, код для 11-го 
ядра: 


Код: 


11 {поде 0 огр 
РТ, 
засю4е таф. УЕ 
ћеге *су =р 
т--- ТО іп 
---и ТО п_ 

поде} 


| ТО ош іпсшае ћагі2 м6 \ -- ВЫ 
---0 ТО ош іпсіое ошгіег2_уЁ\-- Й 


Аналогнчно, для остальных задействованных ядер после формирования 
таблицы, подключаются слова М* , 0+. 
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Код для вычисления коэффициентов Хартли и Фурье примет вид 
Файл һаг М 
Код: 


0# аир аур 
15 # Юг 
Чир дор хог дур . + гор \ очищаем бит переноса 
\-- 8811 
іп #Ъ! ФЪ\ -- $ 5іх приняли входной отсчет 
Чир ош #1 1Ь\ -- 5 $ 1х передали следующему 
рузв\ -- 8511 г:--х 
а! @а+ \ -- $һ $1 саз; а=і+1; г: 
рор а@ ризВ \ -- зв $] саѕ х; #1 
М* \ -- $ ув у; г: -- #1; где у=саѕ*х 


0+ 

рор 

пехг \ -- НУВ ВМ +1 - отсчет Хартли спектра 
Чгор \ -- ВЫ 


\ '-9-- # Ъ! @Ь \ останов адра 
Файл юшег2 _ м 
Код: 


\ -- ВВ \ - вычисляем Фурье спектр на основе Хартли отсчетов 
930 # ~штоа\-- г4 (-- гу) 
п #1 @Ъ \ -- и М-у) 
цр 
м* 
риѕћ риѕћ \ -- Ву; г; -- ВВ 01; 
цр 
м* 
рор рор 
0+ 


'-4-- #Ъ! @Ъ \ останов ядра 


При таком подходе оперативная память ядер вычисляющих и Н (у) 


и 
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Фр (у) загружена на 80%. Дамп памяти одного из ядер приведен ниже. 


Код: 
КАМ Моде 12 


000 01000 --- 

001 014Е8 

002 016А1 

003 014Е8 

004 01000 

005 008А9 

006 00000 

007 3Е757 

008 32000 }коэффициенты 
009 ЗЕВ18 

ООА ЗЕЭ5Е 

00В ЗЕВ18 

00С 32000 

000 32757 

00Е 00000 

00Е 008А9 --- 

:М* 

010 134СА сай СА * 
011 308ЕА 2/ риѕћ агор, 
012 26Е12 рор а@ @р+. 
013 20000 

014 39555 хог; 

#0+ 

015 2ЕА9А ризВ а! рор. 
016 ЗС88А + ризва@. 
017 3СС55 + рор; 

018 04097 @р+ аир ир @р+ ----------------------- + 
019 00000 

01А 0000Е 

01В 2Е9Р2 разв... 

01С 240Е3 аир Яир хог ир 
010 2СІЕЕ . + фор @р+ 
01Е 00175 
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01Е 29297 5! @Ъ ар @р+ 

020 00105 вычисление Н(у) 
021 29ВВАЪ! 'Ъ риѕћ. 

022 2ВС9А а! @а+ рор. 

023 228В2 а@ риѕћ.. 

024 13410 са! 10 М* 

025 13415 са! 15 О+ 

026 2701С рор пех 1С 

027 ЗВРВ2 4гор @р+.. -------------------=-------- + 
028 ЗРЕРО 

029 136АЕ саП2АЕ ~штой 

02А 04В03 @р+ В! @Ь ашр 

02В 00145 

02С 13410 сай 10 М* 

020 2Е892 ризВ риѕћ ир . вычисление Фр(у) 
02Е 13410 са 10 М* 

02Е 26СВ2 рор рор. . 

030 13415 са 15 0+ 

031 04В00 @р+ Ь! @Ь + 

032 00115 ----------------------- + 
033 

034 

035 

036 

037 

038 

039 

ОЗА 

(03-7 

03С 

03р 

0ЗЕ 

ОЗЕ 


Временные параметры вычислений следующие: 


* вычисление коэффициента Хартли спектра ~ 3110 тактов; 
® вычисление Фурье ~ 380 тактов; 
® общее время выполнения ~ 3490 тактов. 
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Скорость преобразования упала до 200000 преобразований в секунду. 


Вычисление быстрого преобразования Хартли 
Введение 


Алгоритмы быстрого преобразования Хартли [19] строятся 
приблизительно на тех же принципах, что и преобразования Фурье. 
Многоточечные преобразования также строятся на основе 2-, 3- или 4- 
точечных преобразований, т.н. <бабочек>. 


16-ти точечное БПХ 
Для примера рассмотрим 16-точечное быстрое преобразование Хартли, 


Преобразование входной последовательности + (є) начинается с ее 
перестановки в двоично-инверсном порядке. Ё (6) >Е (0,1). Далее 
элементы последовательности подвергаются трем этапам 
преобразований. 


1й этап 

Е(0,0)+Е(0,1)->Е(1,0) 
Е(0,0)-Е(0,1)->Е(1,1) 
Е(0,2)+Е(0,3)->Е(1,2) 
Е(0,2)-Е(0,3)->Е(1,3) 


Е(0,4)+Е(0,5)->Е(1,4) 
Е(0,4)-Е(0,5)->Е(1,5) 
Е(0,6)+Е(0,7)->+(1,6) 
Е(0,6)-Е(0,7)->Е(1,7) 


Е(0,8)+Е(0,9)->+(1,8) 
Е(0,8)-Е(0,9)->Е(1,9) 
Е(0,10)+Е(0,11)->Е(1,10) 
Е(0,10)-Е(0,11)->Е(1,11) 


Е(0,12)+Е(0,13)->Е(1,12) 
Е(0,12)-Е(0,13)->Е(1,13) 
Е(0,14)+Е(0,15)->Е(1,14) 
Е(0,14)-Е(0,15)->Е(1,15) 
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2й этап 

Е(1,0)+Е(1,1)->Е(2,0) 
Е(1,2)+Е(1,3)->Е(2,1) 
Е(1,0)-Е(1,1)->Е0,2) 
Е(1,2)-Е(1,3)->Е(,3) 


Е(1,4)+Е(1,5)->Е(2,4) 
Е(1,6)+Е(1,7)->Е(2,5) 
Е(1,4)-Е(1,5)->Е(2,6) 
Е(1,6)-Е(1,7)->Е(2,7) 


Е(1,8)+Е(1,9)->Е(2,8) 
Е(1,10)+Е(1,11)->Е(2,9) 
Е(1,8)-Е(1,9)->Е(2,10) 
Е(1,10)-Е(1,11)->Е(2,11) 


Е(1,12)+Е(1,13)->Е(2,12) 
Е(1,14)+Е(1,15)->Е(2,13) 
Е(1,12)-Е(1,13)->Е(2,14) 
Е(1,14)-Е(1,15)->Е(2,15) 


ЗИ этап 

Е(2,0)+Е(2,4)->Е(3,0) 
Е(2,1)+:Е(2,5)+Е(2,7)->Е(3,1) 
Е(2,2)+Е(2,6)->Е(3,2) 
Е(2,3)-:Е(2,7)+:Е(2,5)->Е(3,3) 


Е(2,0)-Е(2,4)->Е(3,4) 
Е(2,1)-7Е(2,5)-гЕ(2,7)->Е(3,5) 
Е(2,2)-Е(2,6)->Е(3,6) 
Е(2,3)+:Е(2,7)-:Е(2,5)->Е(3,7) 


Е(2,8)+Е(2,12)->Е(3,8) 
Е(2,9)+:(2,13)+:Е(02,15)->Е(3,9) 
Е(2,10)+Е(2,14)->Е(3,10) 
Е(2,11)-сЕ(2,15)+:(2,13)->Е(3,11) 


Е(2,8)-Е(2,12)->Е(3,12) 
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Е(2,9)-гЕ(2,13)-гЕ(2,15)->Е(3,13) 
Е(2,10)-Е(2,14)->Е(3,14) 
Е(2,11)+Е(2,15)-гЕ(2,13)->Е(3,15) 


4й этап 

Е(3,0)+Е(3,8)->> Е(4,0)=Н(0) 
Е(3,1)+Е(3,9)с1+Е(3,15)с3->>Е(4,1)=Н(1) 
Е(3,2)+Е(3,10)е2+Е(3,14)е2->>Е(4,2)=Н(2) 
Е(3,1)+Е(3,11)с3+Е(3,13)с1->>Е(4,3)=Н(З) 


Е(3,4)+Е(3,12)->> Е(4,4)=Н(А) 

Е(3,5)-Е(3,13)с3+Е(3,12)с1->>Е(4,5)=Н(5) 
Е(3,6)-Е(3,14)с2+Е(3,11)с2->>Е(4,6)=Н(6) 
Е(3,7)-Е(3,15)с1+Е(3,10)с3->>Е(4,7)=Н(7) 


Е(3,0)-Е(3,8)->> Е(4,8)=Н(8) 
Е(3,1)-Е(3,9)с1-Е(3,15)с3->>Е(4,9)=Н(9) 
Е(3,2)-Е(3,10)с2-Е(3,14)с2->>Е(4,10)=Н(10) 
Е(3,1)-Е(3,11)с3-Е(3,13)с1->>Е(4,11)=Н(1П) 


Е(З,4)-Е(З,12)->> Е(4,12)-НО2) 

Е(3,5)+Е(3,13)3-Е(3,12)с1->>Е(4,5)=Н(5) 
Е(3,6)+Е(3,14)е2-Е(3,11)с2->>Е(4,6)=Н(6) 
Е(3,7)+Е(3,15)с1-Е(3,10)с3->>Е(4,7)=Н(7) 


тде 

т=1/597 2); 

с1= соѕ(2рі16)=0,924; 
с2= со5(2рі*2/16)=0,707; 
с3= соѕ(2рі*3/16)=0,383, 


Как видно из приведенных выше соотношений, основная 
вычислительная нагрузка идет на операции типа сложения/вычитания 
и выборку значений из памяти, особенно на первых трех этапах. 


Будем предполагать, что отсчеты входного сигнала последовательно 
принимаются одним из ядер процессора (из внешнего или внутреннего 
АЦП, или, например, из памяти). 
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Применим конвейерную схему распараллеливания - каждое ядро или 
группа ядер заняты вычислением результатов отдельного этапа 
преобразования, с распараллеливанием операций по этапам. Выделим 
для проведения вычислений группу средних ядер процессора, тем 
самым, снижая нагрузку на периферийные ядра. 


Диаграмма потоков данных двоично-инверсной перестановки для 16- 
ти ядер выглядит следующим образом: 


+ В 
+- + 
+ —- + 
он Н 
>; : 
т +- 
1 1 т 
1 1 
Ц Ц 
1 1 
Ц Ц 
м м 
5 7 
———— 
Ба : Н 
Н ! Н 
НН Н 
==»; : | 
р +- П 
: : : : : : | 
м м м м м м м 


Для первого этапа имеем следующее: 
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Для второго этапа: 


~ 
м 
аа 


<) 
І 
| 
і 
М 


(0) 
і 
І 
Е 
: 


-—————> 


1 


НЕЕ 


р 
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М 


+1 


(15) 


1) @3) 


76-5 


У 


===> 


Для третьего этапа; 
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рее Е 


й четвертый этап: 


И заключительны 
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аә (а) 


В результате в ядре с номером 0 хранятся коэффициенты Хартли 0 и 8; в 
1-м - 1и 9; во 2-м - 2 и 10; в 3-м - Зи 11; в 4-м - 4и 12; в 5-м - 5и 13; в 
6-м - би 14; в 7-м - 7и 15. 


Для примера рассмотрена реализация БПХ на средних 16-ти ядрах 
ЅЕАіогђ40, при этом ядра 28-21 соответствуют четным индексам (0=28, 
2=27, и т.д.), а ядра 18-11 нечетным индексам (1=18, 3=17, и т.д.). Ядро 
38 работает генератором сигнала - выдает шестнадцать 
последовательных отсчетов. 


При создании кода учитывались следующие ограничения - работаем в 
формате с фиксированной точкой одинарной точности. 
Масштабирование - $100 =1. 
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Файл сое Ю.М 
Код: 


:2рі КМ СМ К-- ;Ё-- 2рі ЮМ) 
5>Е5> Е рі 2.е № № 

: 60$ (МК -- оѕ) 

2рі КИМ соѕ 

ИММЕГАТЕ 


Файл таћ.уЁ 
Код: 
:а*-50 (ху-- рі) \ учитываем только младшую часть 
* гор агор 


а@ $20000 # хог\ -- рр рі 
2/2/2/2/2/2/2/2/; 


: пера поЁ1#. + 


Файл Нашеу _1е5ё „М 


Код: 
{ 
считаем, что обрабатываем данные с ацп 
28-0 27- .21-14 
18-1 27- .21-15 
} 


УУЕ +іпсшде" с7Сг01/готсопђр,Р' 


0 УАГОЕ п. 
0 УАГОЕ й 1 
0 УАГИЕ п_2 
0 МАЈЕ ош. 
0 УАГОЕ ош 1 
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0 УАГОЕ ош 2 
$5 УАГОЕ пт 


16 УАГОЕ пит \ количество отсчетов 
0 УАГОЕ у \ текущий отсчет Хартли спектра 


шсш4е Ертафћ.# 
іпсішде сое Ю.М 


пот 
пит 
пот 
пот 
пот 


38 {поде \ ядро - "генератор" сигнала 


0 
1 
2 
К) 
4 


ісоѕ УАГОЕ с0 
ісоѕ МАТІЈЕ с1 
ісоѕ УАГОЕ с2 
ісоѕ УАГОЕ сЗ 
ісоѕ УАГОЕ с4 


0 огр ћеге =р 
-а-- #Ъ! 
$100 #1 
$100 # Ъ 


50#! 
50 #! 


50 #1! 
50 #1! 
50 #1! 
50 #1! 


50 #1! 
50 #1! 
50 #1! 
50 #1! 


50 #1! 
50 #1 


БББ 


ее 


о 
о 


$100 #5 
$100 #5 


пойе} 
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28 {поде 0 огр 
\ входной порт в регистре -Ь ; выходной -а; 


: Вітапѕії @Ъ !а ; Утапзй @Ъ !а @Ъ !а 
@Ъ !а 

@Ъ !а @Ъ !а 

@Ъ !а @Ь !а; 

за! (ай Ъ# -- ; а= =) Ы аг; 


: ЗБаЕ С б -- +62; ФЪ=0 -- ; -- (а= ) ФЬ оуег !а.+; 
гпераѓе по(1#.+; 


еге =р 


---и # Ы +БаЕ 


\ ----второй этап----------------- 
"--Ь # Фор а!Ъ! +ђаг 


\ ----третий этап----------------- 
+Ба(\ --Ю 


\ ----четвертый этап-------------- 
\ работаем с числами одинарной точности 
\ те. просто отбрасываем старшую часть 
\--Ю а=; =} 

@ъ\-- ЮВ 


іпсде Бас 
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. '-4-- #Ъ! @Ъ \ останов ядра - только для режима симуляции 


поде} 
27 {поде 


: Зкапзй @Ъ !а 

:21тапѕії ФЪ !а :ітапѕї> @Ъ !а ; 

гапзи< @Фа 10 ; 

га! (ай ЪЯ -- ; а= = ) Ы а! ; 
засаде та. уЁ 


: ЗБаЕ С б -- +0; @ФЪ=0 -- (а= ) @Ъ оуег!а.+; 
:-Бае(Ё -- 1-0; @Ъ=Р --; = ) аир а пере @Ь. +; 
\ входной порт в регистре - ; выходной -а; 


Веге =р 


1т--- #1 \ а=]; БЕГ 

тапѕї> 

ітапѕї< 

--- # а! +ђаѓ\ а=г Б=г 
\ ----четвертый этап-------------- 
\-- В ; а=гЪ=г 

—--Е #а! \ -- 2 ;а=1Ь=г 

гапз!> \--В;а=Б=г 

@Ъ @Ъ\-- 2 Но 4 

.+\-- В Н 0+4 

62 # а*-з51 \ -- 0 [10+014]*с2 
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іпсде Багу 
\-- Н2 Н10 


. '-4-- #Ы! @Ъ \останов ядра - только для режима симуляции 
поде} 


26 {поде 

: 41гапѕії @Ъ !а @Ъ !а 

:21тапѕії @Ъ !а : тапзи> @Ъ !а ; 
гапзи< @а 10 ; 

га! (ай ЪЯ -- ; а= =) а! ; 


засаде та. уЁ 
: +БаЕ С б -- В+; ФЪ=Р -- 
: Ба (В -- 1-0; @Ъ=2 


а= ) ФЬ оуег!а.+; 
!а=#1 ) дир !а пере ФЬ. + 


; 
\ входной порт в регистре -Ъ ; выходной -а; 


Веге =р 
\ ----перестановка---------------- 
-- # 1--- # аы 
гапз!> 
@Ъ\-- М 
41тапѕй 


\----перый этап------------------ 
*---и # аир а!Ъ! +Бае 


\ ----второй этап----------------- 
"--Ь # дир а!Ъ! +ђаг 


\ ----третий этап----------------- 

г--- # дир а!Ъ! -Баг \ а=г Б=г 

*--- # Ы ітарѕії> \ а=г =] ; тапѕіг @Ъ>>!а ; 
гапѕії< 


\ ----четвертый этап-------------- 
\-- й ;а=г =; 
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тапѕї> 
@Ъ \-- И 12; а=гЪ=]; 
2гапай \ -- М #12 ;а=г =; 
іпсде Баг.уѓ 
\-- НА Н12 
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. '-4-- #Ы! @Ъ \останов ядра - только для режима симуляции 


поде} 
25 {поде 


:Зітапѕі @Ъ !а 
: 2тапзй @Ъ !а :ітапѕй> (ФЬ !а ; 
:гапзи< @Фа 1 ; 
га! (ай Ъ# -- ; а= = ) Ы аг; 
іпсіие таќћ.уѓ 
: +БаЕ СЁ -- 1+2; ФЪ=0 -- ; -- (а= ) ФЬ оуег !а.+; 
: Бас (В -- 1-0; @Ъ= -- ; -- 1а= б ) аир а пере ФЬ 
\ входной порт в регистре -Б ; выходной -а; 


Беге =р 


перестановка: 
г--- # '--|- #аЪ! 


\ ----перый этап------------------ 
*---и # аир а!Ъ! +Бае 


\ ----второй этап----------------- 
"--Ь # дир а!Ъ! -БаЕ 


\ ----третий этап----------------- 
-БаЕ 


\ ----четвертый этап-------------- 


ва 
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\-- 6 ; а=1; 5=1 
т--- # Ъ! \ -- 6 ; а=]; Бег 
2тапзй 


@Ъ аџр !а @Ъ цр !а\-- 6 НО 4; а=1; Б=г 
перате + с2 # 4*-5ый \-- 6 [1 0-Н4]*с2; а=]; Б-г 
осаде ђаг.уѓ \ -- Нб Н14 


. '-4-- #Ы! @Ъ — \ останов ядра - только для режима симуляции 
поде} 
24 {поде 


:Зігапѕі @Ъ !а @Ъ !а @Ъ !а; 
га! (ай ЪЯ -- ; а= = ) Ы а! ; 


іпсюде та. уЁ 
: +БаЕ С б -- 6+0; ФЪ=0 -- ; -- (а= ) ФЬ оуег !а.+; 
\ входной порт в регистре -Б ; выходной -а; 


Беге =р 


\----перестановка---------------- 
}--Е # т--- # а) 
@ъ\-- В 
Зітапѕй 


\----перый этап------------------ 
---и # дир а!Ъ! +Бае 


\ ----второй этап----------------- 
"--Ь # дир а!Ъ! +ђаг 


\ ----третий этап----------------- 
+ђаѓ 


\ ----четвертый этап-------------- 
\-- #8; а=; Ъ-1 
т--- #а! \ -- В; а=г; =} 
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дор !а \ -- 8; а=; Б=Б 
Зітапѕї 


. '-4-- #Ы! @Ъ \останов ядра - только для режима симуляции 
поде} 
23 {поде 
:21гапѕії @Ъ !а :ітапѕй> @Ъ !а ; 
:гапзи< @Фа 1 ; 
\:аГЫ (а#Ъ# -- ; а= ъ= ) Ы а!; 
гпераге поѓЌ1#. +; 
засаде та. уЁ 


: +БаЕ С б -- +12; ФЪ=0 -- ; -- (а= ) ФЬ оуег !а.+; 
: Ба (Ё -- 1-0; @Ъ=® -- ; -- 1а= 61 ) дир !а пере @Ь.+; 


\ входной порт в регистре -Б ; выходной -а; 


Беге *су =р 


\----перый этап------------------ 
и # дир а! Ы +БаЕ 
второй этап-- 
-Е # дор а! Ъ! -БаЕ 
\ ----третий этап----------------- 
1--- #1 \ а=1; БЕГ 

тапѕї> 

ітапѕї< 

--- # а! +ђаѓ\ а=г Ъ=г 
\----четвертый этап-------------- 
\-- НО ; а=г; Б=г; 

--Е#а! \ -- №0 ; а=} ъ=; 

тапѕї> 
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Чир !а\ -- НО; а=ЁБЪ=г; 
тапѕї> 


. '-4-- #Ы! @Ъ \останов ядра - только для режима симуляции 
поде} 


22 {поде 

:гапзи> @Ь 1а ; 

:гапзи< Фа 1 ; 

га!Ь! (ай Ъ# -- ; а= =) Ы аг; 


іпсюде таф. уЁ 
: ЗБаЕ С б -- 1+2; ФЪ=0 -- ; -- (а= ) ФЬ оуег !а.+; 
: Ба СЁ -- 1-0; @Ъ=Р -- ; -- а= ) ир !а пере @Ъ.+; 


\ входной порт врегистре -Ъ ; выходной -а; 


Беге *су =р 
\ ----перестановка---------------- 
-- # 1--- # аы 
@Ъ\-- #0 
тагѕії> 
--перый этап------------------ 
и # дир аЬ! +Бае 
--второй этап----------------- 
*--Е # дир а!Ъ! +ђаг 
\ ----третий этап----------------- 
г--- # дир а!Ъ! -Баг \ а=г Б=г 
*--- # Ы тарѕій> \ а=г 5 ; тапѕіг @Ъ>>!а ; 
ітапѕї< 
\----четвертый этап-------------- 
\-- 2 ; а=г; 5 
ир !а 
тапѕї> 


\ 


\ 


. '-4-- #Ы @Ъ \останов ядра - только для режима симуляции 


поде} 
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21 {поде 
га!Ь! (а Ъ# -- ; а= = ) Ы аг; 
іпсюде таф. уЁ 
: ЗБаЕ С б -- +0; ФЪ=0 -- ; -- (а= ) ФЬ оуег !а.+; 
Вай -- 1-0; @Ъ=® -- ; -- 1а= б ) дир !а пераге @Ъ.+; 


\ входной порт врегистре -Ъ ; выходной -а; 


еге *су =р 
\----перестановка---------------- 
т--- #'-- #аЪ! 

@Ъ\-- Но 
\----перый этап------------------ 


-Ь # дир а!Ъ! -БаЕ 
\ ----третий этап----------------- 
Ба! 


\ ----четвертый этап-------------- 
\-- Н4; а=; ъ=; 
цр !а 
. '-9-- #Ъ! @Ъ \останов ядра - толью для режима симуляции 


18 {поде 0 оге 
:7тарѕії 

@Ъ !а @Ъ !а 

@Ъ !а @Ъ 1а @Ъ 1а 
@Ъ !а @Ъ !а; 


за!Ь! (ай Ъ# -- ; а= = ) Ы аг; 


іпсіше таф.уѓ 
: Ба С б -- +0; ФЪ=0 -- ; -- (а= ) ФЬ оуег!а.+; 
:Ља( й -- 1-0; ФЪ-0 -- ; -- 1а= № ) дир !а пераге @Ъ.+; 
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\ входной порт в регистре -Ь ; выходной -а; 


Веге *су =р 
\ ----перестановка---------------- 
"- # '---и# а! 
@Ъ\-- й 
7тарѕіг 
\----первый этап------------------ 
*---и # аир а!Ъ! -Баѓ 
\----второй этап----------------- 
*--| # дир а!Ъ! +Ъаг \ -- 62,1) 
\ ----третий этап----------------- 
\-- 6 а==1; 
Чир ризВ \ -- Ё; г: -- Ё 
@Ъ @Ъ. + т # а*-5ій \ -- #[5+7]*%;г:-- Е 
дир дир хог йор. + гор. 
+\В 
рор \ ВЕ 
Чир Ъ Ъ 
\. '-4-- #Б! ФЬ 
\ ----червертый этап------------ 
\-- Й ;а=** ; 55 
(@Ъ с1 # а*-5 1 \ -- А №*с1 ;а=**;Ь=А 
@Ъ сЗ # а*-5ӱй \-- б Ю*с1 5*63 ; а=** ; = 
+ \-- Я 9*с1+15*63 ; а=** ; Б=] 
засшае Баг.уѓ 


. '-4-- #Ъ! @Ъ — \ останов ядра - только для режима симуляции 
поде} 


17 {поде 
:Зігапѕії @ФЪ !а ; 21тапѕї @Ъ !а : тапзи> @Ъ !а ; 
іпсіше таф. УЕ 


:-Бас( й -- 1-0; @ЪЕР -- ; -- !а=Н ) ир !а пере ФЬ. + ; 
\ входной порт в регистре -Ь ; выходной -а; 
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Веге *су =р 


\ ----первый этап------------------ 
'---и # дир а! Ъ! -Баг 


\ ----второй этап----------------- 
*--| Я дир а! Ъ! -Бае 


--- НЫ! 2апей \ -- 2,3) 

@Ъ @Ъ. + т # 4*-5Н \ -- #[5+7]а*г ; г; -- Ё 

Чир дир хог дир. + @гор. \ очищаем бит переноса 
+\ В 


т--- #'--Е #01 а! 2гапей \ а=г; = 
\. '-4-- #5! @Ъ 


\ ---четвертый этап-------------- 
--Е Я 'т--- # Ба! 

\-- В; а=1; Б=г 
2(гапѕі 
@Ъ сЗ # а*-5ій \ -- Ё 1*с1 ;а=** ; Б=К 
@Ъс1# а*-5ӱй \-- И И1*с1 Н3*с3 ; а=** ; БЕ 
+ \-- В б1%*с1+13%с3 ; а=** ; = 
іпсде Баг.уѓ 

\-- НЗ Н11 


. '-4-- # Ы @Ъ \останов ядра - только для режима симуляции 
пойе} 


16 {пойе 


іпсе тафћ.уЁ 
:перае пої1#.+ ; 
: ЗБаЕ С й -- +0; @Ъ=В -- ; -- (а= ) ФЬ оуег !а.+; 
: Ба (И -- 1-0; @Ъ- -- ; -- а= ) дир (а перае @Ъ.+; 
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\ входной порт в регистре -Ъ ; выходной -а; 


Веге *су =р 
\ ----перестановка---------------- 
Е я т--- #0 а! 
@Ъ !а \ ігапѕіс> 
@ъ\-- М 
@Ъ !а @Ъ !а @Ъ !а @Ъ !а \ 4тапѕіс 


\ ----первый этап------------------ 
---и# дир а! Ъ! -Бас 


\ ----второй этап----------------- 
*--| # дир а! Ы +Бае \ --62,5) 


\----третий этап----------------- 
ир \ -- ЕЁ; а=]; 
--- # а! !а \-- Ёа=г; БЕ 
@Ъ \а \ тапй> 
Чир !а 
@Ъ \а \ тапзй> \ -- Ёа=г; Б=1 
Чир @Ъ\--ББИ 
а@ ризВ 
„+ 9*-55 пера \ -- 5 -г*[5+17] 

Яир дир хог аир . + гор . \ очищаем бит переноса 
рора! 
@а. + \ -- Б -г*[5+07]+В ; а=г;Ь=] 
оуег 1 
@а 1Ь \ тапѕи< 
\. '-4-- #5! @Ъ 


\ ---четвертый этап-------------- 
#'--Е#Ъ! а! 
\-- Бу; а=г; ъ=] 

@Ъ !а @Ъ '!а \ 2тапѕіг 

а@ риѕћ 

@Ъ дир !а с1 # а*-5Ый 

рора! 


Многоядерные процессоры 
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@Ъ дир !а сЗ # а*-5Ый 
перате + \ -- 5 с1*Н1-с3*НЗ ; а=**; Б=] 
зос4е БасуЁ 
\-- Н5 Н13 


. '-4-- #Ы! @Ъ — \ останов ядра - только для режима симуляции 
пойе} 


15 {поде 
: Заапей @Ъ !а @Ъ !а @Ъ !а; 


іпсюе тафћ.уЁ 
:-Вас( й -- 1-0; @Ъ=0 -- ; -- 1а= 61 ) дир !а педаге ФЬ. + ; 


\ входной порт врегистре -Ь ; выходной -а; 


Веге *су =р 


1--- #'-- Я! а! 
Запе 

@Ъ\ -- 6 

@Ъ !а \ тапзй> 


\ 


первый этап- 
'---0 # ира! Ы -Бае 


\ ----второй этап----------------- 
'--Е # @ир а! Ъ! -Баѓ 


\ ----третий этап: 
Чир пера оуег\ -- Ё-ЁЁ 
ЪЪ\-Е 
Чир Ъ 
@Ъ пераїе + т # 1-5 
@Ъ.+\ 

\. '-4-- #Ъ! @Ъ 


\ ---четвертый этап-------------- 
1. в ч--- Ба! 
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\-- 0; а=; Б=г 

а@ йир разв роѕћ 

@Ъ дир !а сЗ # а*-5һій \ -- 7 Ю*с3; а=**; Б=г 

рора! 

@Ъ дир !а с1 # а*-Ы \ -- #7 В*с3 Ё5*с1; а=**; Б=г 

пераїе + \ -- #7 Ю*с3-Н5*с1; а=**; Б=г 

рора! 

@Ъ !а @Ъ '!а \ 20тапѕіс 

іпсйе БасуЁ 
\-- Н7 Н15 

. '-4-- #Ы @Ъ \останов ядра - только для режима симуляции 
пойе} 


14 {поде 


:Зсапѕї @Ъ !а 
@Ъ !а @Ь №; 
га! (ай ЪЁ -- ;а= = ) Ы!а!; 


іпсішіе пла. 
гжрас( б -- 1+0; @Ъ=0 -- ; -- [а= ) ФЬ оуег!а.+; 
:-Вас( б -- 1-0; @Ъ=0 -- ; -- 1а= 61 ) дир !а перае ФЬ. + ; 


\ входной порт врегистре -Ь ; выходной -а; 


еге *су =р 
\ ----перестановка---------------- 
"Е # т--- Ва! 
@Ъ\-- В 
Зігапѕі 


\ ----первый этап------------------ 
’---и# аир а!Ъ! -Баѓ 


\ ----второй этап----------------- 
'-- # ацр а!Ь! +Бае 


\----третий этап----------------- 


\- Ва 
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Чир ризВ \ -- Ё; г:-- Ё 
@Ъ @Ъ. + # 4*-3Н \ -- #[5+7]*г ; г: -- Е 
Чир дир хог аур . + 4гор. 
+\ В 
рор \ ВЕ 
Чир ЪЪ 
\. '-4-- #5! ФЬ 


\ ---четвертый этап-------------- 
# '--- на! 
\-- Ө; а=г; Б=Ь 

Чир !а 

Зігапѕі 


.7-1-- #Ы! @Ъ \останов ядра - только для режима симуляции 
пойе} 


13 {пое 


:24тапеії @Ъ !а : гапѕи> @Ъ !а; 
га! (ай Ъ# -- ;а= = ) Ы а! ; 


іпсішіе та. 
: -Бае (И -- 1-0; @Ъ=0 -- ; -- а= #1 ) дир 'а перае @Ъ.+; 


\ входной порт врегистре -Ъ ; выходной -а; 


Веге *су =р 
перестановка: 
# '--- ва! 
{гапз#> 

@Ъ\-- #0 
{гапз#> 


\ ----первый этап------------------ 
’---и# аур а!Ъ! -Баѓ 


\ ----второй этап----------------- 
"-- # Чар а!Ъ! -Баг 
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\ ----третий этап----------------- 
--- #Ы! 2(тапвй \-- 6,3) 
@Ъ @Ъ. + т # а*-5ій \ -- #[5+7]а*г ; г: -- Ё 
Чир дор хог дир. + @гор. \ очищаем бит переноса 
+\ В 
‘--- # 7-1 # а/ы 2еапзЕ 


\. '-4-- #Ъ! ФЬ 
\ ---четвертый этап-------------- 
Е # 'т--- жа 
\-- #1; а=: Б=г 
ітапѕії> 
Чир !а 
ітатѕії> 


Многоядерные процессоры 


.1-0-- #Ъ @Ъ \останов ядра - только для режима симуляции 


пое} 
12 {пое 


тапзй> @Ъ 1а ; 
тапзй< @Фа 1; 
га! (ай Ъ# -- ; а= = ) Ы а!; 


іпсюде таф. у 
: +БаЕ С б -- 6+0; @Ъ=Р -- 
: Ба (И -- 1-0; @Ъ= 0 
\ входной порт врегистре -Ь ; выходной -а; 


Веге *су =р 


\ ----перестановка---------------- 
Е Я т--- Ва! 
@ъ\ -- Но 
ітапѕї> 


\----первый этап------------------ 
---и # цр а!Ъ! -Баѓ 


а= ) @Ь оуег!а.+; 
;-- а=Й ) дир !а перае @Ь. 
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\ ----второй этап----------------- 
"-- # ацр а!Ь! +ђаг 


\----третий этап----------------- 
Чир \ -- ЕЁ; а=1; 
"--- #а!!а \-- ЙЗ а=г; Б= 
тапѕіс> Чир !а ітапѕіё> \ -- М3 а=г; Ь=1 
Чир пера @Ъ \ -- #3 -Н3 5 
а@ роиѕћ 
‚+ тя а*-зЫй \-- #3 ге [-13+615] 

Чир дор хог дир. + @гор. \ очищаем бит переноса 


рора! 
@а. +\-- ИЗ г*[-И3+15]+№ ; а=г;=1 
оуег 1 
ітапѕії< 
\. '-4-- #5! @Ъ 
\ ---четвертый этап-------------- 
\-- #2 ;а=г; Б=Б 
ап > 
Чир !а 


. '-9-- #Ъ! @Ъ — \ останов ядра - только для режима симуляции 
пойе} 


11 {пойе 
га! (ай ЪЁ -- ; а= = ) Ы а; 
іпсюде таф. у 
: -Бае(Ё -- 1-0; @Ъ=0 -- ; -- а= ) дир (а перае @Ъ.+; 


\ входной порт врегистре -Ь ; выходной -а; 


еге *су =р 


# '--- на! 
@ъ\ -- Но 

\ ----первый этап------------------ 
’--и# аур а!Ъ! -Баѓ 

\----второй этап----------------- 
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"-- # Чар а!Ъ! -Баг 
\ ----третий этап: 
Чир пера оуег\ -- Ё-ЁЁ 
ЪЪ\-Е 


Чир Ъ 
@Ъ пераїе + тт # 1-5 
@Ъъ.+\ 

\. '-4-- #Ъ! ФЬ 

\---ҹетвертый этап-------------- 
"--Е Я Чар а!Ъ! 
Чир !а 

\-- #5 


.7-1-- #Ы @Ъ \останов ядра - только для режима симуляции 
пойе} 


геѕег \ гезег ргерагеѕ ће ѕуѕіегп (0 гоп ће сое іп ће Ѕіпшаіог 
\епіег ѕіппша(е ог ип 10 $агЕ е злащаюг 
ег 
\ 141312 И маісћа 1 ѕеіѕіер 
28 27 26 25 мађ 1 ѕеіѕіер 
ѕіїп 


Результаты 
Временные параметры вычислений следующие; 


- вычисление коэффициента Хартли спектра ~ 1150 тактов или около 
620000 преобразований в секунду. 


Распараллелив вычисления на 4-м этапе скорость преобразования 
можно еще несколько поднять. 


Наиболее загруженное по коду ядро - ядро номер 16: 
Код: 
ВАМ М ове 16 


: 4*-зЫй 
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000 315$ 134СА са! СА * 

001 ММВ8 ЗА2ВЕ @гор фтор а@ @р+ 
002 ОГАК 20000 

003 МП$ 387С2 хог 2/2/. 

004 Ш$ 307С2 2/2/2/. 

005 ШО 307С5 2/2/2/; 

006 Ј88К ЗЗРВО поё @р+ . + 
007 АГАС 00001 

008 0000 15555; 

: перае 

009 18$К ЗЗРВО поЕ @р+ . + 
ООА АГАС 00001 

ООВ 0000 15555 ; 

:+БаЕ 

00С АОЕЅ 00Е2А @Ъ оуег!а. 
00р К000 30555 +; 

: -Бае 

00Е ОЕЗС 25449 ир !а са! 9 перае 
00Р АЅКО 009Е5 @Ь. +; 

010 8805 05рА2 @р+ @р+Ъ!. 
011 АК40 00175 

012 АКСО 00105 

013 УАЕ$ 2ВЕ2А а! @Ь !а. 
014 ААЕЅ 01Е2А @Ъ @Ъ!а. 
015 АРА$ 01А02 @Ъ (а @Ъ. 
016 ЕАЕВ ОВЕЗЕ !а @Ъ !а @р+ 
017 АК20 00145 

018 ОУОЅ 24АА2 4ира!Ъ!. 
019 ЗІВС 1340Е саїЕ -Баг 
01А ВОУЅ О4АА @р+ др а!. 
ОІВ АКД40 00175 

01С ОЗВА 2960С Ь! сай С +ђаѓ 
012 08\$ 25рАА йир @р+ а!. 
01Е АКСО 00105 

01Е ЕАРО ОВР2В !а @Ъ !а йир 
020 ЕАРО ОВЕЗВ !а @Ъ !а йир 
021 АВТ$ ООЕВА @Ъ а@ риѕћ. 
022 К8$$ ЗООВ? + @р+.. 
023 АТ.50 00085 
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024 З1АК 13400 са! 0 4*-зЫй 
025 31ВС 13409 саП9 певае 

026 ООМО 24рЕЗ аџр дир хог йир 
027 5КМ№5 2С1ЕА. + ігор. 

028 РУВ$ 26АОА рор а! @а. 

029 КОЕЅ ЗСЕ22 + оуег Ъ. 

02А ВЕВ8 03817 @а 'Ъ @р+ @р+ 
02В АКСО 00105 

02С АК40 00175 

02р 0УАЅ 28402 Ъ! а! @Ъ. 

02Е ЕАЕЗ ОВҒ2А !а @Ъ !а. 

02Е ВТАО 22803 а@ риѕћ @Ъ цр 
030 2855$ ОВОВ2 !а @р+.. 

031 АГМО 000ЕР 

032 З1АК 13400 са! 0 4*-зЫй 
033 РУАО 26А03 рор а! @Ъ апр 
034 Е855 ОВОР? !а @р+.. 

035 АІ.65 00062 

036 З1АК 13400 сай О а*-5һій 
037 ЗІВС 13409 саП 9 перае 

038 КОО5 ЗСЕ82 + оуег оуег. 
039 ЗІВС 13409 саП 9 перае 

ОЗА КТЅК ЗС8ВО + роѕћ. + 

03В Р$85 26912 рор. @р+. 

ОЗС АК80 00115 

03р ОААК 29Е00 Ъ! @Ъ @Ъ + 
ОЗЕ 31У@ 

ОЗЕ З1У@ 


В среднем, загрузка КАМ задействованных ядер порядка 70-80%. 
Некоторые интересные программные трюки [20] 
Счетчик единичных бит в слове; 

:Бс0 (п -- с) 

аџр аџр хог. 


:5с1 (пс'--с) 
пої риѕћ.. 
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:Бе2 (пгх' -- с) 

Бен 

Чир розЬ 24 \ "24 іѕ јиѕі Юогууаг пехі 10 ‘еп Бејоуг 
ігор рор пог; 

еп 

рор ава пехі 


Вычисление среднего вектора 
С = (А+ В) /2, А,В,С вектора 


2 Базе ! 011111011111011111 сопѕїам тазК \ 6:66 шазК, 
\ оѕе 011111110111101111 Юг 855, еіс 


Ћех 


: ауегаре (а -- с) 
оуег оуег апі . 
роѕћ хог 2/ таѕК # 
апі рор .+ ; \<6 гірріе 


Табличная интерполяция 


В=Е(А) : А = АВ,А1-> В = ЕЩАЬ] + АРЕЦАВ] 


: іќегројаќе (а-а'Ъ) 
ор 2/2/. 

2/2/ а! $0Е 

апа 2* 2*, 

2*2* Фа +* 

жж аж ж 


Ротация бит в слове; 


:5#-гоќаіе (ап -- Б )\Ъ Ба п Іей сусіе гоабоп 
риѕћ... 

Бобр 

пої -Ё 

по! 2* [' Гоор ] пехё; ћеп 

2* пої [' Гоор ] пехі; 
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Генератор псевдослучайных чисел 


пк (г--г) 

-й 

2* $2с481 хог; 
еп 

2*; 
:рой( _) 

@Ъ $200 # апа #\ 15 млйе гедиезЕ ѕеі? 
ий! \ "Ор" пез Бог рот їо В 

@Ъ роѕћ ;: \ са іп В (о В; ехесше и. 

піосѕ #1 еп \ Везюге 1ОС$ аййгеѕѕ © В 
гор ; \ Обсаг4 "15' агрштпети & гебшт 


КИХ фильтр на одном ядре: 


: бг-Кетпе1 4 # (арѕ: а0 , 0, а1,0,а2, 0, аз, 0, а4,0, 
: г (Вл _ ош ) аур ор хог @Ъ ћг- кете] йгор ; 


КИХ фильтр, задействующий несколью ядер: 
:Юпр йг «(ат дир ир хог @Ъ ёг Кете! Ъ 'Ъ ; 
:Юпр ёг тій @Ъ роѕћ @Ь рор ёг Кете] !Ь 1; 

: опе ёг епі ФБ риѕћ @Ы рор ёг Кегпе] гор ; 

БИХ фильтр 
1р.15.2р 4 # (арѕ: $4038, 0, $8070, 0, $4038 ‚ һеге0, 
$19039, 0, $361Е7,0, (һе), 

: Ш (п_ п) риѕћ ар ор хогрор }р.15.2р гор Чир !а ; 

Вычисляемый переход: 

:ѕугісһ ( саѕе -- ) рор + риѕћ; 


Пример: @Ы ѕуйсһ Һапіе0 -; һапаје1 -; һапае2 -; һапе3 -; \ чае оЁјитр с 


: змс? ( саѕе -- ) рор + а! @а риѕһ; 
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Пример: @Ъ 52 Вапа 0 һапаіе1 һапае2 һапајеЗ \ ‹аБіе оғ аййгеѕѕеѕ (саГ 
Краткие итоги 


АЅАР-П и ЗЕАЮг4О отличаются от остальных многоядерных 
процессоров отсутствием кэш-памяти, весьма скромными аппаратными 
ресурсами и небольшим количеством команд. При этом эти процессоры 
демонстрируют весьма. эффективные системы управления 
энергопотреблением, обмена данными между ядрами процессора и 
синхронизации задач, выполняющихся на различных ядрах. 


АЅАР-П представляет собой систему из 164 однотипных КІЅС-ядер 
гарвардской архитектуры с тремя специализированными 
сопроцессорами, соединенных статически конфигурируемыми 
коммутаторами. При этом каждое ядро имеет независимый локальный 
тактовый генератор и контроллер напряжения питания. 


Процессор ЗЕАЮгЬ40 состоит из 40 фон-неймановских стековых 
процессорных ядер, объединенных в решетку 4х10. Ядра имеют 
возможность передачи данных только между своми ближайшими 
соседями, Ядро, ожидающее приема или завершения передачи данных 
соседнему ядру, автоматически переходит в спящий режим. 


Более всего процессор подходит для потоковой обработки данных в 
реальном времени. Если вести речь об обработке сигналов - наиболее 
подходят сигналы звукового диапазона, хотя возможна обработка в 
реальном времени и сигналов с частотами до нескольких мегагерц. 
Ключевым фактором для данного процессора является то, что ассемблер 
процессора является одновременно и языком среднего уровня — 
представляет собой вариацию языка Форт. Это позволяет 
разрабатывать приложения для него, максимально оптимизируя их по 
размеру и быстродействию, 


Контрольные вопросы 


1. Архитектура процессора АѕАР — основные принципы 
построения, общие черты. 
2. Каким образом организованы связи между ядрами в А5АР-П? 
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З, 


Фил 


Как реализовано управления энергопотреблением в 167-ядерном 
вычислительном массиве АзАР-П? 

В чем состоят основные архитектурные особенности 
процессорных ядер С18, составляющих ЗЕАЮг 40? 

Какие регнстры входят в состав процессорного ядра С18? 

Как реализуется процедура умножения в процессоре ЗЕАЮг40? 
Как реализован обмен с внешними устройствами в процессорах 
ЅЕАіогћ40? 


Упражнения 


Оцените эффективность схем управления энергопотреблением 
процессоров А5АР и ЗЕАг 40, 

Оцените эффективность передачи данных между ядрами в 
процессорах А5АР и ЗЕАЮг 40, 

На основе примера преобразования Хартли реализуйте 
шестнадцатиточечное преобразование Уолта с одинарной 
точностью. 

Модифицируйте пример с фильтром Чебышева таким образом, 
чтобы его расчет проходил на двух ядрах процессора. 

Оцените время расчета фильтров Чебышева на одном и двух 


ядрах, 
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Графический процессор С80 


В лекции рассмотрены архитектурные особенности графического 
процессора С80. 


Структура графического процессора СВО 


В состав процессора С80 входят 128 вычислительных ядер (далее — 
нитевые ядра) общей пиковой производительностью 518 ГФлопс на 
тактовой частоте 1.35 ГГц, поддерживающих 12288 аппаратно 
управляемых потоков/нитей (рис. 5.1). Нитевые ядра объединены в 8 
блоков по 16 в каждом, управляемых менеджером потоков и 
называемых потоковыми мультипроцессорами [34,35]. 


Ядра являются скалярными, что позволяет легко использовать их в 
вычислениях общего назначения, ведь в этом плане они ничем не 
отличаются от центрального процессора. В С80 вычислительные ядра 
объединены в группы (так называемые потоковые мультипроцессоры) 
по 8 ядер в каждой группе, каждая группа имеет кэш-память первого и 
второго уровней (причем кэш второго уровня доступен для обращения 
всем остальным группам) (рис. 5.2). Все восемь блоков имеют доступ к 
любому из шести Г.2-кэшей и к любому из шести массивов регнстров 
общего назначения (РОН). Таким образом, данные, обработанные на 
одном процессоре, могут быть использованы другим процессором. 
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Рис, 5.1. Общая схема архитектуры С80 
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Потсковый 
мультипроцессор 


Блок множественных 
инструкций 


Разделяемия 
оперативнюя память 
18 Кбайт 


Рис, 5.2. Структура мультипроцессора 


Потоковый мультипроцессор содержит 8 процессоров нитей пиковой 
производительностью 32 ГФлопс на частоте 1,35 ГГц с поддержкой 
операций с числами в формате с плавающей точкой стандарта ІЕЕЕ 
754. Также в него входят: 


® два блока специальных функций — чтение/запись в память, 
обработка текстур, выборки, переходы, вызовы процедур, 
операции синхронизации; 
блок разделяемой памяти 16 Кбайт; 
блок множественных инструкций. 


Нитевые ядра, составляющие потоковый мультипроцессор, 
поддерживают выполнение инструкций с плавающей точкой стандарта 
ЈЕЕЕ 754. Потоковому мультипроцессору доступен также регнстровый 
файл размером 32 Кбайта и кэш второго уровня размером также 
32Кбайта (толью для чтения). 
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Основные операции, поддерживаемые вычислительными ядрами, 


следующие: 


® ҒАРр, ЕМОГ, ЕМАР, ЕМІМ, ЕМАХ, ЕЗЕТ, Е21, 12Е — округление 
до ближайшего четного, округление через 0, поддержка 
специальных чисел, сброс денормализованных операндов и 
результатов до 0; 

® целочисленные инструкцииЛАОО, ІМІЛ.24, ІМАП24, ТММ, 
ІМАХ, ІЅЕТ, 121 $НВ, $НЕ, АМО, ОВ, ХОК, 


Выполнение инструкций конвейеризировано, 


В состав нитевых ядер также входит блок специальных функций, 
который осуществляет поддержку выполнения трансцендентных 
функций; ВСР, ВЗОВТ, ЕХР2, 062, $1М, СО$. 


Блок специальных функций позволяет выполнять аппроксимацию 
функций при помощи квадратичной аппроксимации. Точность 
вычислений — порядка 22,5-24,0 бит. 


Два блока специальных инструкций на потоковый процессор 
производят 1/4 потока инструкций. 


Результаты вычислений отдельной группы потоковых процессоров 
записываются в кэш второго уровня и становятся доступны всем 
остальным группам. Таким образом, данные циркулируют внугри 
процессора и покидают его, только когда все вычисления завершены. 
Это устраняет задержки, возникающие при обращении к видеопамяти. 


Блок множественных инструкций поддерживает 768 нитей, 
выполняющихся параллельно и объединенных в 24 пучка/группы/верпа. 
(магр) нитей (по 32 нити в каждом). Над каждой нитью в пучке в один 


момент времени выполняется одна операция — 51МР. При этом 
каждый пучок нитей независим от других (над разными пучками могут 
выполняться различные операции — МІМР). Блок осуществляет 


аппаратный контроль за выполнением нитей. Конкурирующие нити 
могуг разделять данные, Наилучтая производительность достигается, 
когда все нити в пучке выполняются вместе, без различий в ходе 
исполнения кода (рис. 5.3). 
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При решении прикладных задач на графическом процессоре 
разработчик должен предварительно разбить задачу на разделы (ртійѕ ), 
причем один раздел представляет собой один шаг из 
последовательности тагов решения задачи. В разделе задачи 
выделяются блоки, результаты выполнения которых могуг быть 
получены параллельно — раздел распараллеливается. В блоках 
выделяются элементы/нити, которые выполняются параллельно в 
режиме взаимодействия, — эти элементы будуг соответствовать нитям, 
выполняющимся на нитевых ядрах (рис. 5.4). 


Техиика выполнения задач на графическом процессоре носит название 
массив взаимодействующих/конкурирующих нитей (СТА — Соорегаіўуе 
Тһеайѕ Агтау). Программист определяет параметры СТА — количество 
нитей (от 1 до 512), размерность массива нитей (1-3), количество 
нитей в каждом измерении массива. Нити в СТА выполняют одну 
программу каждая нить имеет свой идентификационный номер, нити 
разделяют данные и синхронизованы между собой. Программа 
использует номер нити для выбора активной нити и адресации 
разделяемых данных. 


149 


Калачев А.В 


Время 


Блок множественных инструкций 
и планировки потоков 


АЕ. 
ЗУ 


Пучок 1 инструкция 19. 


Пуч ютруций а 


УЕ УЬЕ 
УЕ 
«Пучой вн 
"Тучак 1 инструкция 12 

АТ 


Пучок 20. инструкция 92 
— НЕРРЕРАЕЕР — 


Многоядерные процессоры 


Рис. 5.3. Объединение нитей выполнения в пучки и логика обработки 
пучков нитей 
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Последовательность выполнения 


Раздел 1 (Спа 1) 


Рис. 5.4. Принцип параллелизации задачи при ее решении на СРО 


Нити в СТА выполняются совместно. Потоковый мультипроцессор 
получает идентификатор нити и контролирует ее выполнение, СТА- 
нити разделяют данные и результаты, как в глобальной памяти и 
разделяемом блоке памяти, так и при выполнении инструкций 
синхронизации (рис. 5.5). Хранение данных в разделяемой памяти 
позволяет увеличить скорость доступа процессора к данным и 
минимизировать количество обращений в глобальную память. Скорость 
доступа нитей СТА в глобальную память составляет порядка 76 Гбайт/с 
по интерфейсу СООВ БВАМ. 
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Рис. 5.5. Принцип параллелизации задачи при ее решении на СРЈ 


Можно выделить следующую иерархию памяти: локальная, разделяемая 
и глобальная, 


Локальная память (используется нитью) — распределение переменных, 
использование регистров. Разделяемая память применяется массивом 
нитей СТА для обмена данными между нитями. Глобальная память 
используется приложением для обмена данных между разделами 
задачи. 


Модель программирования СОРА 


Для выполнения расчетов на графических процессорах компанией 
МУШІА предлагается специализированная среда программирования — 
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СОВА ( Сотрше Оше Оемісе Агсһйесіше — архитектура с 
унифицированными вычислениями, иногда называемая СРЈ Сотриіпр 
). Среда представляет собой надстройку над языком С, которая вводит 
несколько новых операторов и процедур, значительно облегчающих 
программирование расчетов общего назначения, а также компилятор, 


Процессор выполняет последовательность т. н. программных ядер. 
Каждое программное ядро выполняется как раздел (2) с блоками 
нитей. 


Нити в блоке могут выполняться совместно, синхронизованы и 
разделяют одни и те же данные в разделяемой памяти. Блоки нитей 
выполняются как массивы взаимодействующих нитей (СТА) на 
потоковых мультипроцессорах (рис. 5.6). 


Графический процессор 


Разрал 2 (б: 2) 


Последовательность вылолнения 


Рис. 5.6. Модель выполнения программ СОРА 


Среда СОРА реализует технологию Ѕіпріе-Ргоргат Мишвре-Баа — 
ЅРМР, интегрируя в программе работу и процессора общего 
назначения, и графического процессора. 


Последовательные блоки кода выполняются на процессоре общего 
назначения, параллельные — на графическом. Условно программа в 
СОРА выглядит следующим образом: 


СРО 5епа] Соде 
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Со 
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Распараллеленная архитектура С80 отлично подходит для выполнения 
трудоемких математических задач. Большое количество скалярных 
потоковых процессоров (до 128, а в перспективе еще больше), 
использование кэш-памяти первого и второго уровней для более 
эффективной повторной обработки данных, аппаратный диспетчер 
потоков, осуществляющий оптимизацию загрузки СРИ, — все эти 
особенности делают С80 серьезным помощииком в научных расчетах 
высокой сложности. 


Компанией МУПЛА создан проект Теза, предназначенный для создания 
компактных систем для высокопроизводительных вычислений (НРС) 
[35]. На рис. 5.7 представлена типовая структурная схема 
вычислительного сервера 72514. 
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Рис. 5.7. Структура вычислительного сервера Теа 
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Краткие итоги 


Графические процессоры на данный момент предлагают интересное 
сочетание МІМР- и 51МР-подходов к обработке данных. Переход 
компаниями-производителями к скалярным ядрам помимо 
балансировки нагрузки на процессор расширяет области применения 
графических процессоров. 


Несмотря на потоковую архитектуру, слегка ограничивающую круг 
эффективно решаемых задач, графические процессоры серии С80 
обладают болышим запасом производительности. Благодаря своей 
доступности в составе видеокарт они дают толчок к развитию и 
массовому использованию параллельного программирования. 


Основной подход к программированию данных процессоров — 
выделение в задачах участков с относительно независимыми потоками 
данных. 


Контрольные вопросы 


1. Опишите структуру графического процессора С80. 

2. Каковы основные вычислительные возможности нитевых ядер? 

3. Опишите структуру потокового мультипроцессора. 

4. Как должны быть организованы вычисления в процессоре С80? 

5. В чем состоят принципы организации и фунационирования 
массива взаимодействующих нитей? 

6. Опишите в общих чертах модель программирования СОРА. 


Контрольные вопросы 


1. В соответствии с техникой массива взаимодействующих нитей 
распишите один из известных вам алгоритмов численного 
интегрирования. 

2. Следуя рекомендациям техники массива взаимодействующих 
нитей, распишите вычисления цифрового фильтра с бесконечной 
импульсной характеристикой (БИХ-фильтр). 


155 


Калачев А.В 'Многоядерные процессоры 


Проект ГагтаБее 


Данная леация посвящена одному из проектов фирмы Пе — 
многоядерному процессору Гаттађее. Процессор позиционируется как 
многофунациональный графический сопроцессор, ориентированный на 
архитектуру х86. 


Архитектура ГатаБее [36-38] оптимизирована для повышения общей 
производительности высокопроизводительных систем за счет 
следующих возможностей: 


• параллелизм на уровне данных и задач (векторные вычисления и 
организация потоков); 

~ нет необходимости переформулировать задачи для использования 
регулярных форм/алгоритмов; 

® повышение эффективности программирования за счет поддержки 
программных моделей ІА; 

• применение технологии явного параллелизма на уровне команд 
(ЕРІС — Ехріісііу РагаПе! Іпѕігисйоп Соторийпр); 

• применение предикатных вычислений. 


В сочетании с новым уровнем спекулятивных вычислений это 
значительно уменьшает количество условных переходов и, 
соответственно, ошибочных предсказаний направления переходов. В 
свою очередь, применение ЕРІС однозначно диктует появление в 
архитектуре большого числа фунациональных устройств и сверхбольших 
файлов регистров. 


В своем составе процессор ГатаБее содержит контроллеры памяти, блок 
настраиваемой логики, блок фиксированных функций, системный 
интерфейс и набор вычислительных ядер, каждое из которых является 
1А-процессором [37]. 


Ядра соединены между собой двусторонней кольцевой шиной, в 
которую также включены и остальные функциональные блоки 
контроллера ( рис. 6.1). Ядрам обеспечен быстрый доступ к памяти, к 
блоку фиксированных функций и когерентность кэшей. 


В Гатађее имеется кэш первого и второго уровней. Кэш первого уровня 


156 


Калачев А.В Многоядерные процессоры 
входит в состав ядра. На один аппаратный поток приходится 8 Кб кэша 
команд и 8 Кб кэша данных; таким образом, размер кэша одного ядра 
составляет 64 Кб. 


Кэш второго уровня (12) распределен между ядрами — это ускоряет 
обмен данными между ядрами, облегчает репликацию и общее 
использование данных, 


Кэш второго уровня расположен отдельно от ядер, разделами — по 
одному на ядро. Каждое ядро имеет быстрый доступ к своему разделу 
кэша второго уровня. Размер локального раздела кэша второго уровня — 
256 Кб. Все кэши второго уровня соединены внутренней кольцевой 
шиной, которая используется для обеспечения когерентности данных 
при записи. Как и в современных процессорах Пе в Гаггабее 
поддерживаются спецкоманды для работы с кэшем. Они включают 
команды предвыборки (ргејеісһіпд), т. е. явной загрузки данных из ОЗУ 
в кэш 1-го или 2-го уровня, а также команды смены приоритета кэш- 
линии. Последнее может применяться при последовательной обработке 
массивов. Снижение приоритета вновь загруженных данных позволяет 
избежать замусоривания кэша и повысить производительность. 
Использование традиционной схемы кэширования, в отличие от явно 
адресуемой памяти, как в СЕМ, было вызвано двумя причинами: во- 
первых, можно применять кэш в алгоритмах с более сложными схемами 
доступа к памяти, например, при трассировке лучей; во-вторых, кэш 
позволит не терять производительность на уже существующих 
программах. 


Каждое ядро, как было упомянуто, является процессором архитекту- ры 
ІА, имеет когерентный кэш, систему виртуальной адресации и поддер- 
живает вытесняющую многозадачность. 
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Рис. 6.1. Структурная схема процессора Гаггабее 


При разработке вычислительного ядра за основу был взят процессор 
Р54С с архитектурой х86. Из него исключили функциональность 
исполнения программы е внеочередным выполнением команд, что 
позволило значительно сократить площадь, занимаемую на кристалле 
одним ядром. Это позволяет разместить на кристалле большее число 
ядер и повысить общую производительность системы. 


Гагабее поддерживает возможности, характерные для современных 
процессоров на базе архитектуры х86, в частности, 64-разрядные 
расширения и команды для эффективной работы с кэшем. 
Поддерживаются также некоторые специальные команды, например, 
команда побитового сканирования содержнмого регистра с 
определением первого бита со значением 1. 


Ядро [38] имеет 32 512-битных векторных регистра, поддержнвает 
полный набор векторных операций при работе с целыми данными и с 
данными в формате с плавающей точкой одинарной и двойной 
точности; 


таш, айа, ѕиб, аас, 5, зиБг, ава, ог, хог, тиірју-ада, пару-506; 
векторное сравнение; 

операции чтения/записи с различными выравниваниями; 
операции сборки/разборки; 

битовые манипуляции, 
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Система команд содержит трехоперандные команды. Команда за- грузки 
Гоа@ может выбирать аргумент напрямую из памяти. Беззатратное 
преобразование типов: 


• все математические операции осуществляются с 32- и 64- 
битными данными; 

® расширение данных при загрузке из памяти; 

сжатие / обратное преобразование при помещении в память; 

поддерживаются практически все типы данных ОХЮрепСЬ, 

включая йоаі16, џипот и подобные, 


Ядро имеет систему предсказания ветвлений. 


Декодер инструкций 


кош данных 111,130 


Локальный блок кэцях [2 


Рис. 6.2. Структура процессорного ядра ГаггаБее 


Вычислительные ядра имеют полную поддержку вычислений стандарта 
ТЕЕЕ (#3 55Е). При вычислениях не проводится денормализация ( 
РА7-+ЕТА амаув оп). Всегда идет округление до ближайшего числа. В 
целях уменьшения занимаемой ядром площади (уменьшение размеров 
ядра) нет поддержки обработки исключительных ситуаций. 
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Поддерживаются инструкции ШБ №№, ѕірпед 0. Инструкция Маб не 
производит промежуточных округлений. 


Система команд векторного вычислительного блока [38] (рис. 6.3) 
включает команды с целыми типами данных, а также с вещественными 
типами данных с одинарной и двойной точностью. Одно векторное ФУ 
способно исполнять до двух команд за такт, 


Маскируюмые регистры 


Кэш инструкций; 
кии данных 
1, 10 


Рис, 6.3. Векторный вычислительный блок 


Команда векторной загрузки данных из памяти трактирует свой операнд 
как векторный регистр, каждый компонент которого задает 32- 
разрядный адрес в памяти, и загружает данные по этим адресам. В 
случае когерентности адресов это позволяет значительно сократить 
накладные расходы на доступ к памяти. Подобная команда очень 
полезна для программ, использующих сложные и неравномерные 
структуры данных. На тестах, проведенных Пи применение этой 


команды позволяло достигать троекратного увеличения 
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производительности при работе с нерегулярными структурами данных. 


С учетом системы команд ВФУ, одно ядро может использоваться для 
одновременной обработки нескольких (до 16) логических шейдерных 
потоков одновременно, при этом управляющие структуры могуг 
моделироваться при помощи регистра маски. Альтернативный вариант 
— рассматривать Гагађее как векторный процессор и применять его 
соответствующим образом. 


Ядра Тагабее поддерживают аппаратную многопоточность, по 
аналогии с технологией Нурег Тыеа@шр в современных ГПУ, и 
позволяет частично решить проблему дисбаланса производительности 
памяти и процессора. Если один из потоков простаивает, выполняя 
операцию с памятью или кэшем, исполняются команды другого потока, 
сокращая время простоя центрального процессора. Одно ядро Гаггабее 
поддерживает одновременно до 4 аппаратных потоков, каждый из 
которых имеет свой набор регистров. На каждый поток выделяется по 8 
Кб кэша инструкций и 8 Кб кэша данных. 


Скалярное вычислительное устройство Гаггабее имеет два конвейера. 
Как и во многих других процессорах компании Іме}, в которых 
используется такое решение, первый конвейер может выполнять любые 
команды, а второй — только часть команд. Задача выбора правильного 
порядка команд возлагается на компилятор, поскольку Гатабее не 
поддерживает внеочередное выполнение команд. Выбор подмножества 
команд для второго конвейера был обусловлен, с одной стороны, 
минимизацией площади второго конвейера на чипе, с другой — 
минимизацией нагрузки на компилятор по правильному 
упорядочиванию команд. 


Основным отличием ядра Гапађее от других процессоров Пие] является 
использование векторных команд с обработкой большого числа данных. 
Один операнд векторной команды имеет размер 512 бит, или 16 
вещественных чисел с одинарной точностью. Такой же размер имеют 
векторные регистры. Более традиционные процессоры Іме] 
поддерживают векторные команды с обработкой 4 значений с 
одинарной точностью (128 бит). Более широкий размер операнда 
векторной команды позволяет повысить производительность 
исполнения шейдеров при снижении общей площади ядра на 
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кристалле. Векторное ФУ дает наибольший вклад в вычислительную 
мощность Гапађее, его применение является ключом для достижения 
высокой производительности на реальных задачах. 


Модель программирования ТаггаБее поддерживает модель 
программирования для х86-й архитектуры. Общим для 
программирования Гаттађее является использование компилятора С/С 
++, который статически компилирует программы для набора 
инструкций Таггарее х86. Многие С/С++-приложения могуг быть 
скомпилированы для данного процессора и могут работать корректно 
без модификации, Такое положение дел благоприятно для 
портирования приложений, связанных с интенсивными 
вычислениями, Два основных ограничения лежат в области вызовов 
системных приложений и архитектуры драйверов устройств, которые 
нуждаются в перекомпиляции или модернизации. 


Основные аспекты программирования для Гаггабее — программные 
потоки (многопоточное программирование), векторизации и 
использование 51МО, коммуникации между хост-системой и Гагаее. 
Все векторные блоки процессора являются полностью 
программируемыми. 


Многопоточное программирование основано на расширении известной 
модели РОЅІХ Тһеай АРІ, позволяя привязывать нити программы к 
конкретным аппаратным нитям или ядрам. Для снижения накладных 
расходов при переключении потоков в многопоточных приложениях 
предусмотрена оптимизация потоков. Реализация многопоточного 
программирования для Гагтађее возможна при использовании Іме] 
Теза Виш Віоскѕ, поддерживается модель ОрепМР. Все эти 
возможности поддерживаются компилятором Гаггађее Майуе С/С++, 


Компилятор Г.аггаБее Майуе’5 С/С++ включает в себя версию технологии 
ие’ аџіоуес(огіғаіоп, Векторные устройства могут быть 
запрограммированы векторными инструкциями С++ или прямыми 
ассемблерными вставками. 


В решениях, основанных на центральном процессоре и карте 
расширения с ТГагтабее, Гагађее может управляться драйвером 
операционной системы для платформы. В подобных платформах 


двоичный код ГатаБее тесно связан и перемешан с кодом хост- 
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процессора. 


Краткие итоги 


Процессор Гаггабее представляет собой совокупность вычислительных 
ядер х86-совместимой архитектуры, которая оптимизирована для 
решения многопоточных задач, связанных с обработкой графических 
эффектов, физических эффектов, векторных вычислений, 


Заявленная совместимость с архитектурой х86 открывает неплохие 
возможности по переносимости приложений и расширению их 
фунациональности. 


Контрольные вопросы 


1. Из каких основных блоков состоит процессор ГатаБее? 

2. Опишите структуру вычислительного ядра процессора ГаггаБее. 

3. Опишите структуру векторного сопроцессора, 

4. Какие модели программирования поддерживает процессор 
Таагтарее? 


Упражнения 


1. В соответствии с моделью программирования распишите один из 
известных вам алгоритмов численного интегрирования, 

2, Проделайте аналогичные построения для цифрового фильтра с 
бесконечной импульсной характеристикой (БИХ-фильтр). 
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Проект АТАС 


Лекция знакомит с альтернативной техиологией построения 
многоядерных систем на кристалле — АТАС. Архитектура АТАС 
основывается на ячеистом принципе построения многоядерных 
процессоров, с тем отличием, что ячейками в данном случае выступают 
кластеры, которые состоят из нескольких вычислительных ядер, 
объединенных накристалльной сетью. Ячейки объединяются 
широковещательной оптической шиной. Интересным моментом 
является интеграция оптоэлектронных модулей и оптических каналов в 
рамках КМОП-технологии, Предусматривается возможиость 
масштабирования количества ядер до нескольких тысяч, 


Предпосылки 


Направление развития современных микропроцессоров вполне 
понятно — постепенный переход к многоядерным системам, Многие 
производители заявляют о достижении 1000 и более ядер на кристалле 
примерно к середине следующего десятилетия ( го 2015). Но 
существует проблема: нынешиие процессорные архитектуры, а 
особенно межъядерные коммуникационные механизмы, плохо 
приспособлены к масштабированию до тысячи вычислительных ядер. 
Это же касается и способов их программирования. 


Архитектура АТАС [39,40] объединяет оптическую широковещательную 
сеть с ячеистой (плиточной) мультиядерной архитектурой для 
значительного увеличения производительности, энергетической 
масштабируемости и упрощения программирования, 


Существующие многоядерные архитектуры не позволяют следовать 
закону Мура для некоторых важных классов параллельных приложений. 
Ограничения накладываются стоимостью взаимодействий ядер и 
скоростью обмена с внешней памятью. Целью проекта АТАС является 
решение этих проблем путем внедрения технологии оптической связи, 


Вычислительный процесс можно представить как некий 
информационный поток, захватывающий ядра процессора, 
распространение инструкций и передачу значений между ядрами. По 


мере увеличения количества процессоров будет возрастать задержка 
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передачи данных между отдаленными ядрами, Эффект может 
увеличиваться, если взаимодействие между парами ядер будет 
требовать уже занятых коммуникационных ресурсов. Это 
принципиально для приложений, работающих на глобальных 
взаимодействиях (широковещательная рассылка или синхронизация 
кэшей), Помимо потери производительности глобальные 
коммуникацион- ные операции также ведут к значительным 
энергетическим затратам. Мультипроцессоры с небольшим количеством 
ядер используют для внутренних соединений шину Это простое 
решение, как известно, не масштабируется на большюе количество ядер. 
Системы с большим количеством ядер применяют связи типа “точка- 
точка", где управление коммуникациями осуществляется программно. 


Как правило, для приложений с нерегулярной, не предсказуемой 
заранее или широковещательной структурой связей переход к 
процессорам с тысячами ядер на кристалле может быть крайне 
затруднен или невозможен. Масштабируемости приложений также 
мешают существующне программные техники, Программисты должны 
распределять вычисления по пространству и по времени, а также 
управлять взаимодействием ядер, если они хотят достичь высокой 
производительности для данной аппаратной архитектуры. В 
зависимости от используемой внутрикристальной сети 
скоординировать действия сотен и тысяч процессоров может быть 
крайне сложно. 


Такие действия, как доставка инструкций ядрам, могуг создать 
сложности даже для 5МБ-архитектур. Существующие техники 
программирования не предусматривают оптимизации 
межпроцессорных коммуникаций для достижения высокой 
производительности. Широковещательные сообщения и сообщения 
"все-ко-всем", используемые в протоколах синхронизации, согласования 
или распределения инструкций, не имеют прямой аппаратной 
поддержки и эмулируются путем многократных передач типа “точка- 
точка". 


Основные идеи архитектуры АТАС 


Процессорная архитектура АТАС предусматривает решение этих 


проблем путем организации оптической сети вместо электрических 
165 


Калачев А.В Многоядерные процессоры 
каналов и шин. Проект нацелен на интеграцию оптоэлектронных 
компонент со стандартными КМОП-схемами. АТАС предусматривает 
частотное мультиплексирование — передачу сигиалов на различных 
длинах волн — до 64 частотно разнесенных каналов. Оптические 
линии помимо прочего передают данные на более высоких скоростях, 
чем электрические линии (функция коэффициента преломления света в 
сравнении с задержками ВС-цепей, диэлектрик, окружающий связи, и 
задержка, необходимая для ретрансляции электрического сигнала), 


Оптические сигиалы также могут требовать меньше мощности, чем 


электрические сигиалы (особенно для длинных расстояний), за счет 
меньших потерь и отсутствия необходимости повторения сигиалов. 


Оптический канал 


Кластер из 16 процессорных ядер, 
объединенных сетью 


Рис. 7.1. АТАС-архитектура 


Архитектура АТАС базируется на возможиости нанооптики создавать 
высокопроизводительные, глобальные накристальные сети с низкой 
задержкой распространения сигнала. Сеть состоит из оптического 
канала, охватывающего кристалл. Оптические хабы передают данные 
при помощи модулации лазерного луча источника и направления его в 
сеть. Свет быстро распространяется по каналу и становится доступным 
для приема остальным хабам. Таким образом, любое сообщение в сети 
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может быть эффективно передано всем ее участникам, Фильтрация на 
приемном хабе позволяет ограничить количество получателей 
сообщения, 


АТАС допускает новую парадигму программирования многоядерных 
систем, с большим количеством разделяемых данных и простым 
механизмом распределения инструкций в рамках 5$1МО-модели. 
Механизм широковещания позволяет осуществлять массированное 
согласование кэшей многих ядер практически без ограничений, 


При использовании новых оптических техиологий АТАС процессор 
имеет потенциальную возможность уменьшить трудность 
программирования, повысить энергоэффективность, увеличить 
пропускную способность как внешиих, так и внутренних шин данных и 
соответственно предусматривает масштабирование мощности (рис. 
7.2). 


Последние годы отмечены высокими успехами микро- и 
нанооптических техиологий, которые позволяют переносить наработки 
по коммуникациям на длинные расстояния на масштабы локального 
компьютера, даже в пределах микросборок и интегральных схем [42-43- 
44-45]. 


Исследования [46] показали, что оптические устройства могут быть 
построены при помощи стандартного КМОП-процесса, оптические 
линии будут способны заменить длинные связи на кристалле и 
глобальные шины [46]. АТАС-архитектура возможна именно благодаря 
последним успехам в интеграции электронных и оптических схем. 
Архитектура разработана с учетом реального состояния дел в области и 
пониманием ограничений как оптической, так и классической 
полупроводниковых техиологий. 
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Рис, 7.2. Сравнение энергоэффективности передачи оптического и 
электрического сигиалов 


Ключевые элементы технологии АТАС 


Ключевыми элементами техиологии, присутствующими на АТАС- 
кристалле, являются: так называемый "оптический источник питания" 
— источник света, волноводы для передачи света, модуляторы для 
помещения световых сигиалов в волноводы, детекторы для приема 
сигиалов. В АТАС источником света (оптическим питанием) служат 
внешние лазеры. Световой поток направляется в накристальные 
световоды. Энергопотребление внешнего лазера — примерно 1,5 Вт с 
выходом примерно 0,2 Вт в виде оптического излучения, попадающего 
в световод. Для использования схемы разделения частот предполагается 
наличие нескольких источников лазерного излучения. Световоды 
представляют собой встроенные каналы, по которым распространяется 
свет. Они направляют и распределяют при помощи комбинирования 
материала с большим коэффициентом преломления в центре и с 
менышим по краям канала. Световоды могуг быть изготовлены как из 
кремния, так и из полимера. С учетом того, что кремниевые световоды 
могут быть размещены на кристалле более компактно и что модуляторы 
для кремниевого световода намного более компактные, чем для 
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полимерного, в АТАС предполагается создание кремниевых световодов. 
Тем более что кремниевые световоды могуг быть изготовлены в 
стандартном КМОП-процессе. 


Требуются световоды с потерями менее, чем 0,3 дБ/см и емкостью по 
мощности не менее 19мВт. И то и другое требование в кремнии 
достижимо. Для обмена информацией используются следующие 
компоненты: источник света, модулятор, оптический фильтр, 
электронный драйвер модулятора. Оптический фильтр представляет 
собой кольцевой резонатор, настроенный на определенную длину 
волны, — определяется размерами резонатора (также им определяется 
расстояние между длинами волн для схемы ИРМ). Дальнейшая 
настройка может быть осуществлена путем изменения температуры 
резонатора или его заряда. Модулятор представляет собой оптическое 
устройство, которое формирует цифровой сигнал, изменяя коэффициент 
поглощения. Модуляторы применяются для преобразования 
электрического сигнала в оптический — своего рода оптический 
коммутатор, помещающнй оптический сигиал в световод, 
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Рис. 7.3. Структура кольцевого оптического резонатора 


Модуляторы, требуемые для архитектуры АТАС, должиы иметь 
параметры, которые ориентировочно будут достигнуты в 2012 году: 
потери на включение — 1 дБ, площадь — менее 50 кв. мкм, скорость 
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модуляции — 20 Гб/с, энергия, необходимая на переключение, — менее 
25 фДж и общее потребление — порядка 25 мкВт/ГГц. На приемной 
стороне для приема сигнала используется дополнительный компонент 
— оптический фильтр для приема сигиала и преобразования его в 
электрический вид [39,41]. 


Оптический фильтр (кольцевой резонатор) используется для извлечения 
света нужной длины волны из световода и транспортировки его к 
фотодетектору Так же как и модулятор, оптический фильтр должен быть 
настроен на конкретную длину волны. Фотодетектор в данном случае 
должен быть сверхчувствительным приемником. Для архитектуры АТАС 
требуются следующие параметры: для 11-нм технологичного процесса 
— чувствительность более 1 А/Вт, ширина полосы пропускания более З 
ДБ на частотах более 20 ГГц, занимаемая площадь — менее 20 кв. мкм, 
паразитная емкость менее 1 фФ [39]. При данной технологии выход 
детектора нуждается в усилении. Как правило, начиная с технологии 22 
нм, меньшая емкость входа транзистора позволяет фотодетектору 
управлять цифровыми схемами. На рисунке вышеперечисленные 
компоненты изображены вместе. Для одного ядра показана передающая 


часть, для другого — принимающая. 


Дыолентричоский повносся: 
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Рис. 7.4. Схема оптической передачи между двумя ядрами 


Для всех ядер, входящих в архитектуру узлы приема-передачи 
оптических данных одинаковые, Сигналы модулятора используются для 
посылки 0 или 1 в сеть, Драйвер модулятора состоит из нескольких 
инверторов, которые управляют емкостной нагрузкой модулятора. 
Модулятор помещает свет на волне предварительно настроенной длины 
в световод, кодируя тем самым 0 или 1. Оптически кодированные 
данные распространяются по световоду на скорости, равной примерно 
одной трети скорости света, и принимаются фильтром, настроенным на 
ту же длину волны. Кванты света улавливаются приемником и 
передаются приемному регистру на приемной стороне [39,41] (рис. 7.4), 


Структура межъядерных связей 


Архитектура АТАС представляет собой "плиточную/ячеистую" 
многоядерную архитектуру, сочетающую технологию электрических 
соединений с оптической накристальной сетью. Применяется 
связанный двумерный массив простых вычислительных ядер, каждое из 
которых содержит одиночный или двойной БКІЅС-процессор и кэш 
данных первого уровня, АТАС использует протокол распределенных 
директорий. Часть распределенной директории расположена в каждом 


узле. 


Ядра в АТАС связаны двумя сетями — электрической ЕМеѕћ и оптико- 
электрической АМе. ЕМ№ег — обычная двумерная электрическая сеть 
типа "точка-точка", аналогичная существующим в обычных 
мультипроцессорах. ЕМеѕ идеальна для предсказуемых, близких 
взаимодействий, АМеё предлагает технологию для организации 
оптической накристальной сети, основанную на технологии оптической 
памяти, Ядро сети АМе( составляет ОМе! (рис. 7.5). Сеть АМе! содержит 
64 оптически соединенных кластера, включающих в себя небольшие 
электрические структуры, служащие для взаимодействия с оптической 
сетью, — это сети ЕМеіи ВМее, 


АМ№еї используется обычно для осуществления передачи данных между 
удаленными ядрами или для глобальных передач в рамках сети 
(широковещательные передачи). 
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Ключ к эффективной организации глобальных коммуникаций в 
пределах кристалла — оптическая сеть О №, Она обеспечивает связь 
между отдельными конечными точками, называемыми хабами. Хабы 
соединены между собой световодом, проходящим через весь кристалл, 
формирув замкнутое кольцо (рис. 7.5). При помощи модулятора, 
оптических фильтров и приемника хаб имеет возможность передавать и 
принимать данные из световодов. Сигиал, посланный одним из хабов, 
быстро достигает остальных. Таким образом, любая передача в сети 
может быть широковещательной. Для передачи независимых данных 
применяется частотное мультиплексирование каналов. Каждый хаб 
имеет фильтры, настроенные на уникальную длину волны, и фильтры, 
позволяющие ему принимать сигиалы на всех длинах волн. Эта 
возможность используется при организации глобальных передач, 
синхронизации ядер, управлении сетью. В дополнение к этому 
повышенная скорость передачи исключает разнородную задержку 
распространения сигиала, зависящую от расстояния между ядрами, — в 
любой паре хабы взаимодействуют между собой с малой 
фиксированной задержкой, вместо задержки на один цикл на узел в 
связях типа "точка-точка". В общем, функциональность сети ОМе 
можно сравнить с полносвязной сетью с двунаправленными связями 
между узлами и с дополнительной функцией широковещания, Частотное 
разделение каналов позволяет задействовать один световод для 
нескольких перекрывающихся передач в различных направлениях (для 
сравнения, электрическая связь обычно используется для передачи 
одного бита). Для многих сетевых операций, трудно реализуемых в 
электрических сетях, применение АТАС существенно увеличивает 
эффективность. ОМеЁ может масштабироваться до как минимум 64 хабов 
(возможно до 100). Количество длин волн, на которые могут быть 
настроены фильтры, ограничено минимально необходимым 
расстоянием, спектральной шириной канала и общей шириной полосы 
излучения в питающем световоде. Также существуют ограничения по 
общему количеству энергии, которое может передать световод в 
отношении к количеству энергии, требуемому детектором для приема 
сигиала, и по максимальной длине волновода, зависящей от потерь 
распространения. 
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Оптический канал 


Кластер из 16 процессорных 
ядер, объединенных сетью 


Рис. 7.5. Организация связи между модулями АТАС архитектуры на 
различных уровнях 


Указанные ограничения могуг быть обойдены использованием 
нескольких волноводов и распределением каналов передачи данных 
между ними. Как правило, при этом площадь, необходимая для 
реализации световода, может также стать ограничением. Оптические 
компоненты сети и сама сеть могут быть вынесены на отдельный 
уровень КМОП-стека и накладываться на электронные компоненты, к 
которым они подключаются. К примеру, на кристалле площадью 400 
мм? может разместиться оптическая сеть с 384 хабами. Для 
рассматриваемого случая О №еѓ соединяет 64 одинаковых кластера при 
помощи 64-битной оптической шины, проложенной по всему 
кристаллу. Каждый кластер содержит 16 вычислительных ядер и хаб 
сети ОМеё Внутри кластера ядра связаны между собой и с оптическим 
хабом двумя сетями — ЕМ№е и ВМе. ЕМеЁ используется только для 
передачи данных от ядер кластера к хабу ОМ№е, ВМе — 
широковещательная электрическая сеть для передачи данных от 
оптической сети вычислителям. 


Передача данных и согласование кэш-памяти 


Более детально процесс передачи данных с применением сети АМ№еѓ 
показан на рис. 7.6. Сообщения ядер достигают хаба, который, в свою 
очередь, пересылает их в сеть ОМеё на своей уникальной длине волны. 
Это позволяет двум хабам передавать данные одновременно без 
интерференции. ОМе! состоит из нескольких световодов: 64 для данных, 
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1 для управления и несколько для метаданных, Световоды метаданных 
служат для указания типа передаваемого сообщения (чтение памяти, 
данные и пр.) или как тэг сообщения (для устранения двусмысленности 
при нескольких сообщениях от одного источника), Хаб приемника 
принимает оба значения последовательно в ЕІЕО-буфер, связанный с 
конкретным отправителем. Затем данные пересылаются 
вычислительным ядрам через ВМ№Меї Оптическая часть позволяет 
эффективно реализовывать широковещательную передачу с большей 
скоростью и меньшими затратами на регенерацию сигнала, 


Е 
РТ 


От ЕМ От Емен 
Передающий Передающий 
узел № 1 узел №22 
кВМею 
Приемный узел № 55 


Рис. 7.6. Процесс передачи данных с использованием сети АМеѓ 


Ядра в АТАС — простые процессоры с кэшем данных и команд первого 
уровня. Когерентность кэшей поддерживается при помощи протокола, 
известного как АСКмБе. Кэши поддерживают когерентность при 
помощи протокола распределенных директорий МОЕЗТ, 


Директории распределены равномерно между ядрами, более того, 
каждое ядро является "домом" для определенного пула адресов 
(распределяется статически). Рис 7.7 представляет три ядра, 
находящиеся в различных кластерах, Каждое ядро содержит процессор, 
кэш данных и директории кэша. Для примера (рис. 7.7) предположим, 
что обращение к директории кэша всегда приводит к промаху 
(необходимости синхронизации кэша). Стрелками на рисунке 
обозначены типовые операции по согласованию кэшей; промах по 


записи по адресу А ядром а, В данном примере ядро б является "домом" 
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адреса А, и начальное состояние адреса А в кэше — "занято" (О-5ае) 
ядром с. Трафик по согласованию кэшей передается по сети АМеёе 
Последовательность действий для согласования кэшей для данного 
случая будет следующей: 


1 Запуюс на запись 
по адресу А 


Рис. 7.7. Пример согласования кэшей различных ядер 


1. процессор в ядре а пытается осуществить запись по адресу А и 
получает ошибку записи; 

2. ядро а посылает запрос на запись ядру 6, к которому относится 
адрес А; 

3. ядро б не имеет данных в кэше, но указывается, что этот адрес 
занят ядром с. Ядро б посылает запрос на запись по этому адресу 
от имени ядра а; 


© ядро с пересылает данные адреса А ядру а и обновляет 
состояние кэша для этого адреса до "недействительный"; 
о ядро с посылает АСК-сигнал в директорию ядра 6; 
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5. линия кэша, содержащая адрес А, обновляется на ядре а, и линия 
получает статус "модифицирована", 
6. процессор ядра а производит запись по адресу А, 


Когда ядрам необходимо обратиться к внешней памяти, они делают это 
при помощи нескольких встроенных в кристалл контроллеров памяти. 
Каждый контроллер памяти замещает кластер ядер и, таким образом, 
имеет свой выделенный оптический хаб. После получения запроса по 
оптической сети он обращается к внешиим РРАМ-модулям посредством 
стандартных линий ввода-вывода. Результаты передаются в оптическую 
сеть. Изменяя количество контроллеров памяти и количество кластеров, 
можно на различных АТАС-процессорах достигать различных значений 
показателей пропускной способности подсистемы памяти и 
вычислительной мощности. Основная задача контроллера памяти — 
преобразовать запросы от процессорных ядер в транзакции на шине 
памяти. Выбор технологии шины, таким образом, не зависит от 
архитектуры накристальной сети. 


Вполне допустим вариант использования оптических интерфейсов как 
на ввод-вывод, так и для шины памяти. Это даст преимущество в 
пропускной способности и потребляемой мощиости. 


Каждый оптический вывод может поддерживать до 64 длин волн со 
скоростями до 20 ГГц. Скорость передачи данных будет ограничена 
скоростью работы электронных компонент, управляющих оптическим 
потоком. Предполагается, что скорость в 5 ГГц вполне может быть 
достигиута. При этом полоса пропускания оптического вывода может 
достигать 320 Гб/с (40 Гб/с). Для сравнения, 64-битная РРЕЗ имеет 
пиковую пропускную способность 12,8 Гб/с, Поскольку оптическая шина 
памяти состоит только из одного световода, уменьшается количество 
выводов, и это при увеличении пропускиой способности практически в 
три раза. Все это де- лает применение оптического ввода-вывода 
востребованным для АТАС- процессоров с несколькими контроллерами 
памяти, 


Краткие итоги 


Архитектура АТАС предлагает способ масштабирования многоядерных 


систем за счет объединения кластеров ядер оптической сетью в 
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пределах кристалла. Предусматривается до 64 отдельных оптических 
каналов передачи данных за счет использования различных длин волн. 
Упрощается обмен широковещательными сообщениями, увеличивается 
скорость обмена данными. 


Архитектура ориентируется на 11-нм техпроцесс, который, по мнению 
ее разработчиков, может быть реализован к середине десятилетия 
(ориентировочно 2012-2016 гг). 


Контрольные вопросы 


1. В чем состоят принципы построения многоядерных систем на 
основе технологии АТАС? 

2. Укажите способы передачи данных в АТАС. 

3. Опишите структуру и принцип работы оптического 
приемопередатчика (модулятора и фильтра). 

4. Каким образом осуществляется согласование кэшей в АТАС? 


Упражнения 


1. Найдите и сравните между собой гибридные технологии 
производства процессоров. 

2, Оцените состояние разработок оптических, квантовых и 
клеточных процессоров. 
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Мультиядерные процессоры АКМ-архитектуры 


Лекция посвящена обзору мультиядерных процессоров одной из 
наиболее популярных на сегодняшиий день архитектур — АВМ. 
Мультиядерные процессоры данной архитектуры сочетают в себе 
масштабируемость производительности, низкое энергопотребление, 
эффективную систему команд и широкий спектр поддержнвающих 
технологий и продуктов. Все эти качества делают их перспективной 
базой для высокопроизводительных мобильных устройств. 


Процессоры с ІР-ядрами АКМ 


Процессоры с ядрами АКМ на данный момент являются достаточно 
популярными для мобильных устройств и встраиваемых систем 
различного применения, Самые массовые из них — это мобильные 
телефоны, смартфоны, коммуникаторы, мультимедийные устройства. 
Архитектура обладает такими привлекательными свойствами, как 
удобная и эффективная система команд, мощиая поддержка при 
разработке аппаратной базы и программного обеспечения, высокая 
энергоэффективность. Относительно недавно было заявлено о 
разработке мультиядерной архитектуры на базе АЕМ, что открывает 
данным процессорам путь на рынок высокопроизводительных 
приложений. В частности, одно из возможных применений — 
ноутбуки, сравнимые, а то и превосходящие их аналоги на архитектуре 
х86. 


На данный момент компанией АКМ представлены три мультиядерные 
архитектуры: АВМ11 МРСоге тм, Согіех-А9 МРСоге тм и Согіех- А5 
МРСоге тм. Каждая из этих архитектур может масштабироваться от 
одного до четырех процессорных ядер (АВМИ, Сопех-А9 и Сопех-А5) 
[48-49-50-51]. Код, написанный для одиночных процессоров, также 
может исполняться и на мультиядерных. 


Целевая область применения процессоров МРСоге лежит в области 
мобильных приложений с высокими требованиями по 
производительности совместно с ограниченными энергетическими 
ресурсами. Благодаря масштабируемой пиковой производительности 
данный процессор может достаточно легко справляться с требованиями 
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современных высокопроизводительных встраиваемых приложений при 
сохранении инвестиций в программное обеспечение в условиях 
развивающегося рынка. 


Общая характеристика мультиядерных АБМ- 
процессоров 


Процессоры МРСоге поддерживают полностью когерентный кэш 
данных, существенно упрощая как симметричный, так и 
асимметричный мультипроцессинг, собственно, как и любую другую 
мультипроцессорную технологию, 


Производительность приложений увеличивается благодаря 
возможности разделения ядрами данных кэша, возможности 
распределения и балансирования вычислительной нагрузки между 
процессорами, портирования многозадачных приложений, а также 
масштабируемости приложений за счет эффективной загрузки 
процессора многопоточными приложениями, характерными для 
современного программного обеспечения. Возможность передачи 
данных между кэшами процессоров позволяет процессорам эффективно 
разделять данные без необходимости доступа в память, 


Оптимизированный кэш первого уровня существенно ускоряет 
операции с данными при сохранении достаточно низкого 
энергопотребления, Аппаратная реализация индексации и тэгирования 
данных кэша снимают временные издержки при устранении наложения 
адресов или необходимости очистки кэша в ходе смены контекста в 
операционной системе, Кэш данных используется как при операциях 
чтения, так и при записи данных совместно с адаптируемым буфером 
записи, который позволяет существенно снизить количество обращений 
к основной памяти и может формировать запросы на массированную 
передачу данных из нескольких запросов к памяти, Уникальная система 
кэш-памяти ускоряет выделение пространства кэша, в результате чего 
оно выполняется всего за один цикл, 


Процессоры МРСоге позволяют производителю использовать одни и те 
же ядра с различными конфигурациями для продуктов с различными 
свойствами и требованиями. 
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К настоящему времени лицензия на выпуск процесоров АВМ МРСоге 
приобретена более чем 15 компаниями, включая Вгоайсот, МЕС 
Ејесітопісѕ, МУІЛА, Вепеѕаѕ Тесһпоіору, Тоѕһћа ара Затой Согрогабоп, и 
воплощена в большом количестве приложений и устройств, 
представленных на современном рынке. Технология существенно 
расширяет спектр приложений, предлагая более эффективные модели 
операций, 


Все мультиядерные решения от АВМ базируются на шинной архитектуре 
АМВА З АХЬ дающей возможность подключать к процессорам не только 
память и периферийные устройства, но и другие процессоры. Шинный 
интерфейс процессоров МРСоге и масштабируемость позволяют 
настраивать производительность системы, оптимизировать ее 
энергопотребление и снижать общую стоимость решения и риск 
морального старения при переходе к следующему поколению цифровых 
устройств. Интеграция с существующими системными компонентами 
также снижает риски, связанные, например, с поддержкой 
операционных систем и продуктов на базе данных процессоров. 
Работает стандартная для АЕМ- архитектур модель программирования с 
поддержкой существующих операционных систем и приложений. 
Доступны совместимые с Шпих 2.6 $МР операционные системы и 
инструменты разработки. 


Занимаемая процессорами площадь на кристалле, диапазон рабочих 
частот и потребляемая мощиость зависят от использованного при 
реализации технологического процесса, библиотек компонентов и 
оптимизации. 


Несмотря на различия в ядрах и некоторые различия в построении 
мультиядерных вариантов процессоров, есть ряд технологий, 
поддерживаемый ими всеми, 


Технологии ускорения выполнения Јауа-приложений — Ла2е ОВХ и 
ТагеЙе ВСТ для оптимизации процесса адаптивной компиляции "на 
лету" (Таз Іа Тие (ЛТ) апі Юупатіс Адарбуе Сотрћабор (ОАС)), а также 
для уменьшения расхода памяти — максимум в три раза. 


Технология Тіиѕі7опе предназначена для обеспечения безопасности 
транзакций, управления цифровыми сертификатами, создания базы 
для проверки и защиты прав (ГРірќа! Кіріѕ Мапарете (ОВМ)). 
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АВМ11 МРСоге 


Синтезируемый процессор АВМ11 тм МРСоге тм [48] поддерживает 
микроархитектуру АВМ11 и может содержать от одного до четырех 
процессоров (рис, 8.1), достигая производительности до 2600 ОМІРЅ; 
имеет расширенную полосу пропускания памяти порядка 1,3 Гб/с для 
одиночного процессора, 


|} Конёуғуриоемоа числе иннй 34102008 на врорыванно | 


торе Ел 0 


Блок отслеживания операций (бпоор Согіго! Шпіє — БСШ 
| Системная шина АМВА 3 АХ! 


т р 


Рис. 8.1. Структура процессора АВМ11 МРСоге 


Процессоры АВМ11 МРСоге поддерживают архитектуру АВМУб с 
поддержкой ТһитБ К ‚ расширений цифровой обработки сигиалов, 
51ІМР” мультимедийной обработки данных и АВМ }а2е 9 Тауа, 


У процессора высокопроизводительная подсистема памяти. Каждый 
процессор имеет свои независимые кэши данных и инструкций с 
поддержкой согласования данных. Размер кэшей инструкций и данных 


182 


Калачев А.В Многоядерные процессоры 
можно независимо изменять в пределах от 16 Кб до 64 Кб 
индивидуально для каждого ядра. 


Поддерживается 64-битный интерфейс АМВА АХІ Ты с одиночной или 
двойной 64-битной шинной системой АМВА З АХЕ Системная 64- 
битная шина АМВА 3 АХІ упрощает обмен данными в системе при 
достаточно большой полосе пропускания и простой системе 
тактирования. 


Векторный сопроцессор (Уесог Рюайпд Роіпі соргосеѕѕогѕ) работает с 
числами в формате с плавающей точкой, 


Блок контроля и распределения прерываний является 
программируемым — возможно сконфигурировать до 255 независимых 
источников аппаратных прерываний 


Добавлена система управления энергопотреблением: мультипроцессор 
имеет возможность отключать неиспользуемые ресурсы и процессоры 
(Айаріуе Ѕһийомт), что в итоге дает динамическое энергопотребление 
порядка 0,49 мВт/МГц — экономится до 85% энергии, 


АВМ11 МРСоге позволяет разработчикам систем на кристалле 
рассматривать отдельный процессор как одиночный процессор, 
упрощая тем самым процесс разработки и уменьшая время выхода 
продукта на рынок, 


Технические характеристики: 


90-нм технологический процесс; 

рабочая частота — 320-620 МГц; 

занимаемая площадь с кэшем 1,77 мм?; 

размер кэша — 16 Кбайт / 16 Кбайт; 

потребляемая мощность — 0,23-0,43 мВт/МГц (без кэша — 
0,180,37 мВт/МГц), 


Занимаемая ядром площадь, диапазон рабочих частот и потребляемая 
мощиость зависят от использованного при реализации 
технологического процесса, библиотек компонентов и оптимизации. 
Приведенные числа получены при следующих условиях производства; 
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технологический процесс — ТМС; стандартный набор библиотек 
компонентов — АКМ Агіѕап, 


Серия Соцех-А МРСоге 


Процессоры семейства Согіех-А МРСоге тм [49-50-51] — Согіех-А5 
МРСое тм и Согіех-А9 МРСоге Тм — помимо небольшой 
занимаемой площади и энергоэффективности обладают богатым 
арсеналом возможностей и функциональностью архнтектуры АВМУ7, 
что в итоге дает высокую производительность и низкое 
энергопотребление, как на специфических прикладных приложениях, 
так и для устройств общего плана, Поддерживается также технология 


ТһитЬ К] -2, обеспечивающая высокую производительность при 
одновременном уменьшении размера кода на 30%. 


Процессоры, входящие в состав мультипроцессоров Согіех-А МРСоге 
тм, имеют блок операций с плавающей точкой, способный выполнять 
операции с одинарной и двойной точностью, Он обладает примерно 
вдвое большей производительностью, чем предыдущие версии АКМ 
ЕРО, 


Архитектура АКМ Согіех-А5/А9 (рис. 8.2) имеет мультимедийное 128- 
битное 51МР расширение архитектуры — МЕОМ, предназначенное для 
поддержки мультимедийных операций и функций цифровой обработки 
сигиалов (например, для ускорения работы таких алгоритмов, как Н.264 
или МРЗ). Также данный модуль расширяет систему команд набором 
инструкций АКМ МЕОМ Айуатсед $1МО, впервые представленным с 
процессором Сопех-А8, 
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Рис. 8.2. Структура процессоров Согіех-А МРСоге 


Блок предсказаний ветвлений поддерживает целевые проходы и буферы 
глобальной истории, при этом точность предсказаний, согласно тестам, 
будет порядка 959%. 


Подсистема памяти обладает возможностью загрузки данных в кэш 
первого уровня за один цикл, Оптимизированная подсистема АМВА 
АХІ обладает полосой пропускания, которая более чем в три раза шире, 
чем у процессоров АКМ117677-5, 


Добавлена поддержка нескольких разобщенных транзааций с внешней 
памятью для более полной загрузки процессора. 


Начиная с процессора Согіех-А9 МРСоге мульгипроцессорная 
технология МРСоге включает в себя следующие решения и технологии; 


• порт ускорения согласования — Ассејегаіог Сойегепсе Рогі (АСР) 
— для увеличения системной производительности и снижения 
энергопотребления; 

® блок Адуапсеі Виз ІГтегјасе — для снижения задержек в 
устройствах с высокими требованиями к полосе пропускания, 


Компоненты Робат Тасе Масгосей и СогеЅіри тм Оеѕірп Кі 
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позволяют разработчику отслеживать выполнение программы либо с 
сохранением истории выполнения в буфер кристалла, либо с выдачей ее 
через стандартный отладочный интерфейс, что весьма упрощает 
процесс разработки и отладки программ, 


Технология Мшіісоге Тіиѕіопе (8) имеет виртуализацию прерываний 
для аппаратной поддержки защиты данных и расширенных 
возможностей решений по виртуализации приложений, 


Общий контроллер прерываний — Сепегаше@ Іпіеггирі СопітоПег (СІС) 
— предназначен для поддержки портабельности программного 
обеспечения и оптимизации межпроцессорного обмена, 


АКМ Соех-А9 МРСоге 


АВМ Согіех-А9 МРСоге поднимает пиковую производительность на 
новый высокий уровень при одновременной поддержке простоты 
решений и возможностей контроля потребляемой мощиости, как на 
уровне процессора, так и на уровне системы в целом, 


Процессор Согіех-А9 МРСоге имеет возможность оптимизации про- 
изводительности приложений и по скорости выполнения, и по 
потребляемой мощиости, 


Основные возможности включают в себя следующее, 


• Энергоэффективный суперскалярный конвейер 
производительностью более 2,0 ОМІРЅ/МГЦ. 

® Оптимизированный по производительности и потребляемой 
мощности кэш первого уровня совмещает минимальное время 
задержки и минимальное энергопотребление, Добавлен 
контролер кэша второго уровня, позволяющий осуществлять 
доступ с малыми временами задержки и высокой пропускиой 
способностью к кэш памяти размером до 2 Мб, 

® Мультипроцессор Согіех-А9 МРСоге иллюстрирует практически 
линейную масштабируемость производительности на различных 
тестах. 

® Процессоры АВМ Согіех-А9 — и одиночный вариант (рис. 8.3), и 
мультипроцессор — поддерживают ряд специфических 
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расширений АКМ-архитектуры, в том числе; ОР, УМО, Јағеће 
г ‚ Те опе, Ііећрепі Епегду Мападег (ІЕМ тм ). В дополнение 


к этому АВМ разработала ряд поддерживающих технологий для 
сокращения времени разработки и сокращения времени выхода 


продукта на рынок. 


Рис. 8.3. Структура процессора АКМ Сопех-А9 


Данная поддержка включает в себя компоненты ІР, системные средства 
разработки и отладки, библиотеку стандартизованных макроячеек и 
памяти — АВМ А4уащаре. 


Компоненты Рһуѕісаі ІР включают широкий спектр продуктов, в том 
числе стандартную библиотеку макроячеек и реализаций памяти для 
создания высокопроизводительных и низкопотребляющих систем с 
процессором Соцех-АЭ. Стандартные макроячейки содержат модули 
регулирования энергопотребления, позволяющие динамически 
управлять режимами работы в целях оптимизации энергопотребления с 
применением таких технологий, как управление частотой, управление 
напряжением питания, блоки с различным напряжением питания. 
Библиотеки ячеек памяти также предлагаются с расширенными 
возможностями управления питанием. 
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Процессоры Согіех-А9 поддерживаются обширной библиотекой 


макроячеек РгітеС е К аргіс ТР, включая: контроллер динамической 
памяти —РІ.341 0082; контроллер статической памяти — Р1351; 
конфигурируемый интерфейс межсоединений — РГ.301 АХТ; контроллер 
кэша второго уровня — РІ.310 12 Сасйе СопітоПег, оптимизированный 
для высокопроизводительных приложений с использованием 
процессоров Согіех-А9. 


Приложение АМВА КО] Пеѕідпег 1001 позволяет разработчикам систем 
на кристалле (50С) конфигурировать и оптимизировать подсистемы 
связей АХГи экспортировать их в стандарт ЕРА. 


Средство разработки АВМ БКеајуемг К] ЅоС ОЮеѕірпег позволяет 
осуществлять быстрое расширение архнтектуры, анализ 
производительности систем на основе Согіех- А9, а также разрабатывать 
драйверы и критически важные участки кода до того, как станет 
доступной аппаратная часть. Инструмент ВеаМеу 5уѕіет Сепегаюг 
предлагает средства моделирования поведения системы на основе 
АВМ-кода. 


Технология АВМ СогеЅіри тм используется для быстрой отладки и 
уменьшения времени выхода продукта на рынок. Процессор применяет 
технологию Ргофаш Тгасе Масгосей для трассировки хода выполнения 
программы с поддержкой просмотра выполнения инструкций и 
включает АВМУ7-совместимый отладочный интерфейс. Инструмент 
СогеЅіви деѕірп Кі для Согіех-А9 расширяет возможности отладки и 
трассировки. 


Среда разработки программного обеспечения АВМ ВеаМе\м Оеуејіортепе 
Зе включает в себя генератор кода, оптимизированный по 
производительности и плотности кода, с поддержкой компиляции кода 
для расширения архнтектуры МЕОМ, отладки приложений для 
мультипроцессора Согіех-А9 МРСоге при помощи инструмента 
ВеаМем/ ЈСЕ апа Тасе. Процессор Соцех-АЭ поддерживается также 
широким спектром отладочных плат и систем разработки прототипов, 
как в ЕРСА, так и в виде программных средств. 


АКМ Сопех-А5 
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Процессор АВМ тм Сопех К -А5 — самый маленький, 
низкопотребляющий, мульгиядерный 'АВМ-процессор, 
предназначенный для широкого круга устройств: от мобильных 
устройств типа смартфонов, коммуникаторов, мультимедийных 
проигрывателей и т. п. до встраиваемых пользовательских или 
индустриальных компьютеров. 


Процессор Сопех-Аб (рис. 8.4) предусматривает возможность миграции 
решений для большого количества лицензированных ядер, основанных 


на АВМ926Е)-5 ® и АВМ1176Ј2-5 (@. Обладая 
производительностью лучшей, чем процессоры АВМ1176Ј7-5, при 
уровне энергопотребления и занимаемой площади АКМ926ЕЈ-5 
процессора, Согіех- А5 дает примерно двукратный прирост отношения 
"производительность/потребляемая мощность" по сравнению со своими 
популярными предшественниками. 


интерфейс трассировки / отладки 


блок загрузку 
блок процессорное вдро ќа) прмема данных 
прадаврительной бен) Сопох-дБ 
выборки буфер 
прмема данных 
блок вычислений 
каш инструкций 4= тн — каш данных. 


Рис. 8.4. Структурная схема процессора АВМ Согіех- А5 


Производительность еще больше увеличивается в мультипроцессорной 


конфигурации Согіех-А5 МРСоге ®. 


Процессор АВМ Сопех-А5 основан на одноканальном 8-стадийном 
конвейере с улучшенным блоком предсказания ветвлений. Достигаемая 
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производительность — 1.5 ОМІР5/МГЦ. 


Одиночный процессор включает в себя 8-уровневый целочисленный 
конвейер, модуль МЕОМ, блок вычислений с плавающей точкой. Все 
блоки процессора оптимизированы по потребляемой мощности и 
занимаемой площади. 


Таблица 8.1. Сравнительные характеристики мультиядерных процесси 


Относительное 
Процессор Промзаодительность энергопотребление,мВт/ Вавомег < 
роц ядра, ОМИР5/МГц м Частоты,МГц 

АВМ11 

МРСоге 1.0 0,23-0,43 320-620 

АКМ 1 
Согіех-А9 2,0-2,5 <2000 6 
МРСоге 

АЕМ » 
Согіех-А5 1,5 0,12 480 + 
МРСоге 


Процессоры изготавливаются по 40-нм технологии, рабочая частота — 
480 МГц, занимаемая на кристалле площадь — 0,53 мм? (без кэша — 
0,27 мм), размер кэша инструкций/данных — 16 Кбайт/16 Кбайт. 
Площадь, занимаемая процессором с кэшем и блоком расширения 


МЕОМ — 0,68 мм2, Энергопотребление — 0,12 мВт/МГц. Показатель 
энергоэффективности — 13 ОМ!Р5/мВт. 


Сравнительные характеристики АЁМ-процессоров представлены в 
таблице 8.1 


Краткие итоги 


Мульгиядерные процессоры АВМ представляют довольно мощную и 

энергоэффективную платформу для широкого класса приложений. Эти 

процессоры обладают возможностями мультимедийной обработки 

данных, поддержкой ряда технологий уплотнения кода и управления 
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питанием. Они базируются на высокопроизводительной системной 
шине АМВА 


Целевая область применения; мобильные устройства и встраиваемые 
системы различного применения — мобильные телефоны, смартфоны, 
коммуникаторы, мультимедийные устройства, Архитектура 
процессоров обладает весьма привлекательными свойствами; удобная и 
эффективная система команд, мощная поддержка при разработке и 
сопровождении продукта, как аппаратной базы, так и программного 
обеспечения, высокая энергоэффективность, 


Контрольные вопросы 


Укажите основные общие черты мультиядерной технологии АКМ. 
Опишите структуру процессора АКМ11 МРСоге, 

Опишите структуру мультиядерных процессоров Сопех-А МРСоге. 
Укажите отличия процессоров Согіех-А5 МРСоге и Согіех-А9 
МРСоге, 


Упражнения 


® Оцените пиковую производительность мультиядерных 
процессоров с АМ-ядрами, 

• Проследите тенденции развития архитектуры ААМ в разрезе 
производительности, энергопотребления, памяти, 
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Мультиядерные процессоры на базе МІРЅ-совместимых 
ядер 


Лекция посвящена обзору мультиядерных процессоров на основе МІРЅ 
и совместимых с ними ядер. Мультиядерные процессоры данной 
архитектуры помимо достаточно высокой энергоэффективности и 
высокой производительности добавляют аппаратную поддержку 
нескольких потоков. 


Когерентная процессорная система МІР532 1004К 


Наиболее близким конкурентом для мультиядерных АКМ процессоров 
является когерентная процессорная система МІР532 1004К, также 
содержащая до 4 процессорных ядер. Одним из существенных отличий 
системы МІР532 1004К является поддержка ее процессорными ядрами 
двух потоков исполнения, 


Когерентная процессорная система (СР5) МІРЅ32 @) 1004К стала 
следующим шагом в развитии технологии процессоров от МІРЅ 
Тесһпоюрјеѕ [52-53-54]. 1004К СР5 является масштабируемой 
мультипроцессорной платформой, которая поддерживает до четырех 
ядер, подключенных с использованием когерентной архитектуры (рис. 
9.1). Каждое ядро системы аппаратно поддерживает несколько потоков. 
1004К СРЅ оптимизирована для приложений типа "система-на- 
кристалле", обеспечивает высокую производительность благодаря 
снижению задержек доступа к памяти при помощи переключения 
потоков на время ожидания данных, 


Когерентная мультипроцессорная система применяет многопоточн ость 
для увеличения производительности по сравнению с традиционными 
мультипроцессорными системами, Система поддерживает до четырех 
процессорных ядер с аппаратной поддержкой двух потоков в каждом 
ядре. Многопоточность дополняется многоядерностью — как 
следствие, есть возможность поддерживать $МР-операционные 
системы и модели программирования с минимальными аппаратными 
затратами. Основные области применения: 


• "цифровой дом"; 
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ә телекоммуникационные приложения; 
• автомобильные информационные системы; 
® средства автоматизации офиса (многофункциональные офисные 
устройства), 


Аппаратная поддержка когерентности снижает программные 
издержки, 


| Регистры рифигурвцви процессора ] Гозтекчныя тперфейсЕТАС/ЯОТтаоР | 
Процессорное ядро Процессорнов ядро Процессорнов ядро Процесоорнре ядро 
то04К т004к 1004К. 1604К 


"Виотуюльный || Виргувльный ||| Зиртивльный || Виртувльный ||| виртуальный || Видтувльный | | биртувльный | Выртувльный 
ромессорный || прешвосорныя | | прецесворный | процессорный | | процевосрный | промессорный | |процессорњыя | моокесорыый| 
элементо || эмм о эмнето || эламонто эланьто || элемәнто элементо | элемент 


64- битный интерфейс ФСР или 258-битный 


ннтерфойс контррллера кэша12 
еее ноонинел 

| тире Контроллер кеша |2 

ннннниннннн ннан! Периферийные 


Рис. 9.1. Структура процессора МТР$ 1004К. 


Основные возможности когерентной мультипроцессорной системы 
МІР532 © 1004К тм: 


• от 1 до 4 1004К многопоточных ядер (в совокупности до 8 
аппарат-но поддерживаемых потоков); 


* блок управления согласованием (СМ) — управление 
согласованием ядер и ввода-вывода; 
® блок согласования ввода-вывода — аппаратный блок для 


согласования нагрузки ввода-вывода между программной 
реализацией и процессорными ядрами; 
® глобальный контроллер прерываний (СІС) — системный и 
межъядерный контроллер прерываний; 
* расширенный 256-битный интерфейс к контроллеру кэша второго 
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уровня; 
• блок отладки и трассировки Е/ТАС/РОбасе тм. 


Базовое ядро системы [54] (рис. 9.2) 1004К имеет 9-уровневый 
конвейер, благодаря которому производительность системы составляет 
более 1,5 ОМПР5/МГц на ядро. Каждое ядро поддерживает операции с 
одним или двумя аппаратными потоками. 


Сверхоп ивное 
ОЗУ 


Блок 
управления Шинный 
памятью интерфейс 
16-64 записей 
ІТВ или ЕМТ 


Неблокируемый Сверхоперативное 

жиру ОЗУ и 

выборки/записи 
данных 


Блок обмена данными 


Л между потокамн 


Рис. 9.2. Ядро 1004К 


Для реализации аппаратной поддержки нескольких потоков 
используются виртуальные процессорные элементы (Уігіџа! Ргосеѕѕіпо 
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Еетепз — УРЕ$). Существуют две версии ядер — с поддержкой 
операций с плавающей точкой (1004КЬ и без (1004Кс). Ядра 
поддерживают МІР532 ЮЅР АЅЕ версии 1. Согласованные порты 
имеют  дублированные теги кэша для фоновой проверки 
когерентности, Предусмотрена конфигурация таблиц данных и 
инструкций ТІВ, кэшей, буферного ОЗУ и некоторых других опций на 
этапе создания, 


Система на кристалле ХГР832 


Процессор является масштабируемой системой на кристалле, которая 
включает ключевые функции коммуникационных систем, в том числе 
безопасность проводных и беспроводных систем, сетевые приложения, 
системы хранения данных, системы балансировки нагрузки и другие 
приложения ХР Ргосеѕѕог ТМ стал третьим поколением 
усовершенствований многопоточной, мультиядерной архитектуры 


семейства ХГЕ (8) Ргосеззог [55,56]. 


Восыннонльный вом нковый хаш ив мова 


в шо с и + Е 


Поинты | помои ора [Г траса |[ ежели Г Пианист | поинты 
Па ит Ее ЕН их ит 7 Е СЕП 
тч Я С СЕС НЯ Се Н 
в |а еа реа еа аа ече] Г 
ШЕ Еа Еа Еа аы аа А Ы 
| от Аа ВЫ ЫЫ ЫБА | Ч БЕ Ы 
заана | ааа Г аас арас ||| араа Гея |на 1 аса 
З И || И ||. Е ЕЯ 
пр Е Е Е 
Ц ЕИ Еа МЕ ВЕ я р Ц 
Е ИЕ10 Е 30 ЕЕ] ШЕ ||, 
А о ИСАИА ЕЯ 
түти | аа Е А 
2000 || || а || п ВЕ ВЕ В 
Ала | АЕ ЕСА 


ЕЕ) Е ЕЕ Е Е Ес 


Е Я Е Я 
ЕЯ 
07 


Промежуточный ннторфойстАт 
зами Рбе20 


Рис. 9.3. Структурная схема процессора ХІ.Р832 
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Процессор ХІ.Р832 (рис. 9.3) создан по 40-нм технологическому 
процессу. Ядра работают в диапазоне частот от 500 Гц до 2 ГГц, что в 
итоге дает более чем трехкратный прирост производительности в 
пересчете на Ватт по сравнению с процессорами серии ХІР. 
Процессоры серии ХІ.Р832 обратно совместимы по программному 


обеспечению с процессорами серий ХЕВ и ХІЅ ® [56]. 


Каждое из восьми ядер, составляющих процессор, одинаково хорошо 
подходит как для задач обработки данных, так и для задач управления. 
Для поддержания высокой производительности при поточной 
обработке данных архитектура ядер ЕС4400 поддерживает несколько 
потоков на аппаратном уровне, ядра также поддерживают 
суперскалярный режим с внеочередным исполнением команд. 
Сочетание планирования четырех инструкций и поддержки четырех 
последовательных потоков создает "систему на кристалле" с высокой 
производительностью. Каждый из четырех потоков, поддерживаемых 
ядром, представляется программному обеспечению как отдельный 
процессорный элемент (УігішСогеѕ Тм ), что существенно упрощает 
разработку программного обеспечения и увеличивает общую 
производительность системы, 


Ядро ЕС4400 представляет собой МІР564 Вееазе-П 15А-совместимый 
процессор, с поддержкой виртуальной памяти, Содержит ТЕЕЕ754- и 
М!Р5-совместимый блок арифметики в формате с плавающей точкой. 
Рабочие частоты — от 500 МГц до 2 ГГц. Процессор ХІР имеет 
прирост производительности в расчете на Ватт более чем в три раза по 
сравнению с серией ХЁК, 


Процессор имеет согласованный трехуровневый кэш архитектуры 
МОЕЅІ+. Ключевые особенности следующие, 


Высокоскоростная сеть передачи сообщений (ЕММ) с малым временем 
отклика позволяет взаимодействовать виртуальным ядрам (УігішСотеѕ), 
устройствам и вводу-выводу, Сеть ЕММ позволяет обмениваться блокам 
сообщений без блокировок и семафоров. Передавая контрольные 
сообщения (дескрипторы), ЕММ предусматривает последовательный 
доступ без блокировок к периферийным устройствам, причем простым 
и прозрачным образом, что увеличивает в результате 
производительность драйверов устройств. 
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Процессор имеет несколько автономных специализированных 
ускорителей, которые снимают часть нагрузки с вычислительных ядер, 
оставляя им вычислительные задачи, 


Три встроенных интерфейса согласования (ІСТ) могут объединять до 
четырех процессоров ХГР832. Пропускная способность каждого 
интерфейса 80 Гб/с (полный дуплекс). Интерфейсы программно 
полностью прозрачны. Аппаратно поддерживается согласованность 
данных, передача сообщений между потоками, разделение памяти и 
ресурсов ввода-вывода. 


Многоскоростные последовательные интерфейсы ЅЕКРЕЅ 
поддерживают следующие комбинации; 


• ІпіегіаКе; 
® ХАШТ; 
• 5СМП 


Сетевой ускоритель поддерживает обработку потока пакетов в 40 Гб/с. 
Возможности модуля включают в себя; программируемый анализ 
пакетов, вычисление и проверка контрольных сумм в форматах ЕСоЕ, 
і5С51, СТР; вычисление контрольных сумм входящих/исходящих 
пакетов ТСРЛЈЭРЛР; сегментацию ТСР-трафика; поддержку протокола 
ІЕЕЕ1588у2, 


Устройство упорядочивания пакетов (РОЕ) поддерживает 
упорядочивание пакетов размером вплоть до 64 Кбайт. 
Производительность РОЕ составляет до 60 миллионов пакетов в 
секунду, то есть 40 Гб/с при 64-байтных пакетах, 


Криптографический модуль с пропускиой способностью 40 Гб/с: 


* 10 криптографических ядер; 

• поддержка алгоритмов ОЕ$/З0Е$, АЕЅ (128, 192, 256), АВСА/ВСА; 
М05, ЅНА-1, ЅНА-256/384/512 и ЗМОМЗС (АП НМАС), 
РЕЅ/ЗрЕ5, АЕЅ (128, 192, 256), АВС4/ВС4, ВЅА/Н, Показатели 
для протокола 581./1РЅес — до 30,000 ВЗА-обменов ключами в 
секунду (60,000 СЕТ), ЕСС (Ері Сшуе Сгурюдгарйу). 
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Модуль сжатия/декомпрессии данных — 10 Гб/с, 


8-канальный блок прямого доступа в память и блок хранения данных; 


® поддержка КАП)-5 ХОБ; 
• вычисления ВАІ0-6 Р+О СаюБ; 
• поддержка поиска и ликвидации дублирующих данных, 


Система имеет четыре контроллера РСЕ 2.0, два ОЗВ-порта, режимы 
хоста и клиента, интерфейс РСМСІА, интерфейсы к МАМО и МОК 
флэш-памяти, два КС-интерфейса, два асинхронных интерфейса 16550 
ОАВТ, линии ввода-вывода. Также поддерживаются динамическое 
управление частотой каждого ядра, динамическое управление 
напряжением питания, статический выбор частоты для критических 
блоков (Бгіадеѕ, піегсоппесіѕ, ОМА, ес.). 


Краткие итоги 


Описанные в лекции процессоры, кроме параллелизма, присущего 
мультиядерным системам, применяют параллелизм на уровне потоков, 
что позволяет более эффективно использовать пропусную способность 
подсистемы памяти и вычислительные ресурсы процессорного ядра, 
минимизируя простои, связанные с ожиданием окончания операций 
обмена с памятью, 


Контрольные вопросы 


1. Почему мультипроцессорная система МІР532 1004К называется 
когерентной? 

2. Опишите структуру ядра 1004К. 

З. Опишите структуру процессора ХГР832 

4. Каковы основные характеристики ядра ЕС4400? 


Упражнения 


1. Сравните показатели мультиядерных процессоров с ядрами АЕМ 
и МІР. 
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2. Проследите тенденции развития архитектуры МІР5 в разрезе 
производительности, энергопотребления, памяти, 
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Мультипроцессор Се] 


В лекции описывается один из самых известных мультиядерных 
процессоров — мультипроцессор Сей. Основные области применения 
процессора на сегодняшиий день — мультимедийные центры, игровые 
консоли, 


Общая структура процессора Се 


Се представляет собой процессор с архитектурой СВЕА (СВЕА (СеЙ 
Вгоа4фапа Епріпе АгсЬиесцие) — архитектура, расширяющая 64-битную 
архитектуру), построенный на основе 64-битной архитектуры Ромег, 
которая направлена на распределенную обработку данных и 
выполнение приложений, предназначенных для обработки больших 
объемов мультимедиа-данных [57-58-59]. 


Процессор состоит из набора модулей, объединенных при помощи 
высокоскоростной шины (ЕВ), которая представляет собой две пары 
колец (96 байт за такт), работающих на половине частоты процессора. 
Пропускная способность канала ввода данных — 35 Гб/с, канала вывода 
данных — 40 Гб/с, объединенная пропускиая способность канала 
обмена данными с общей памятью — 25,6 Гб/с. 
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КР Е РЕ 


Когерентная шиид ЕТетиеии |огсогилеся Ви (Е1В) 


тт | тт т} 
 Пооаооорный оно фигурирувный Рекакінурирномый 
аломант Ремс | | Контроллер ‘новогорантный нөєогоронтный 
тамин матере, чнтерфейс 
Ка 7 ӘСР 
Е} 7 1 
айл хра Ро ею 


Рис. 10.1. Блок-схема мультипроцессора Сей 


В состав процессора входит 8 одинаковых процессорных модулей (5РЕ), 
содержащих процессорное ядро (5РИ), локальную память модуля (1.5), 
один процессорный модуль (РРЕ), содержащий 64-битный процессор, 
кэши первого и второго уровней, два реконфигурируемых 
некогерентных интерфейса ввода-вывода (ЕВС), интерфейс памяти 


(МІС) ( рис. 10.1) [57]. 
Структура процессорного элемента Ромег (РРЕ) 


Процессорный элемент Ромег (РРЕ) имеет 64-разрядную архитектуру, с 
упорядоченной выдачей двух инструкций одновременно (5МТ), кэш 
данных и кэш инструкций первого уровня объемом 32 Кб, 
объединенный кэш второго уровня объемом 512 Кб. 


Процессор обеспечивает два одновременных потока выполнения и 

может рассматриваться как двухпроцессорный мультипроцессор с 

общим потоком данных. Ядро чередует команды от двух 

вычислительных потоков, выполняющихся одновременно. Это 

позволяет программному обеспечению воспринимать его как два 
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независимых процессора. Продублированы все видимые состояния, в 
том числе видимые регистры и регистры специального назначения (за 
исключением регистров, имеющих дело с ресурсами на уровне системы, 
такими как логические разделы, память и управление потоками). Такое 
решение позволяет оптимизировать применение слотов выдачи команд, 
сохранить максимальную эффективность процессора и уменыпить 
глубину конвейера. Невидимые для программиста ресурсы (типа кэшей 
и очередей) обычно используются обоими потоками совместно. 
Исключение составляют те случаи, когда ресурс невелик или может 
существенно повысить производительность многопоточных 
приложений. 


Простые арифметические операции выполняются и отправляют далее 
свои результаты за два такта, Задействован режим отложенного 
выполнения на конвейере операций с фиксированной запятой, 
благодаря чему команды загрузки также завершаются и отправляют свои 
результаты за два такта, Команда двойной точности с плавающей 
запятой выполняется за десять тактов. 


РРЕ поддерживает обычную иерархию кэш-памяти; имеются кэши 
первого уровня для команд и данных емкостью по 32 Кбайт и кэш- 
память второго уровня емкостью 512 Кбайт. Кэш второго уровня и кэши 
преобразования адресов используют таблицы управления заменой, 
чтобы разрешить программе направлять данные из определенных 
диапазонов адресов в конкретное подмножество кэша. Такой механизм 
позволяет блокировать данные в кэше, если размер диапазона адресов 
равен размеру множества. Он может служить и для предотвращения 
перезаписи данных в кэше; данные, применяемые только один раз, 
направляются в определенное множество кэша. Все это повышает 
эффективность процессора и усиливает контроль над процессором, 
осуществляемый в масштабе реального времени, 


Процессорный блок состоит из З блоков: ПУ (шебаевой и); ХО 
(еХесийоп ті); УЅО (Месіог 5сааг Ип® (рис. 10.2). Узел команд ІУ 
(Іпѕітисбоп Оті) отвечает за выборку, дешифровку; выдачу и завершение 
команды, а также за выполнение команд перехода, Узел операций с 
фиксированной запятой ХО (Еіхе1-Роіпі еХесийоп Ипй) выполняет все 
команды с фиксированной запятой и команды загрузки/сохранения. Узел 
векторно-скалярных команд УЗО (№есіог 5саюг (тй) отвечает за 
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векторные команды и команды с плавающей запятой. 


Узел команд ІО за один такт выбирает из каждого потока четыре 
команды в буфер команд и отправляет команды из этого буфера по 
назначению. После дешифровки и проверки зависимостей команды 
выдаются на узел выполнения по две за такт, Для прогнозирования 
результата команды перехода служит таблица истории переходов 4 Кбит 
х 2 бит с шестью битами глобальной истории на поток, Узел ІО может 
выдавать до двух команд за такт, 


Угол комакд 


Потока Поток в. 


ыы] полонина повы Олено 
Очередь инстру 


еарідь гатды кны пбянбннеў ковае 
Бле Блосвъл огнени + 
ә перехоное Вектооны й блок. 


нда 
Чтение Вапись еростановкв 
Блок бобріамй 
Фома 
о фиксированной 
тонкой. 


Блох формирования результата. 


Вектарны й блок 
|ррифетина-логич ских сарац] 


бло формирования резуль тата 
векторных олоращий 


Узел операций с фиксированной залятой || Узел векторно-скалярных операций 


Рис. 10.2. Структурная схема процессорного элемента РРЕ 


При такой "сдвоенной" выдаче возможны любые комбинации, кроме 
двух команд к одному и тому же узлу; а также следующих исключений. 
Простая векторная, комплексная векторная, векторная с плавающей 
запятой и скалярная с плавающей запятой арифметические команды не 
могут быть сдвоены с командой того же типа (например, не допускается 
выдача простой векторной команды в одном такте с комплексной 
векторной). Однако эти команды могут быть сдвоены с любой формой 
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команды загрузки/сохранения, перехода с фиксированной запятой или 
перестановки элементов вектора. Очередь готовых к выдаче команд в 
узле У517 отделяет конвейеры векторных команд и команд с плавающей 
запятой от остальных конвейеров. Это позволяет выдавать такие 
команды вне очереди других команд. 


Узел ХО состоит из двух файлов регистров общего назначения 32х64 бит 
(по одному на поток), блока выполнения команд с фиксированной 
запятой и блока загрузки/сохранения. В последний входят кэш данных 
первого уровня, кэш преобразования адресов, 8-элементная очередь 
кэш-промахов и 16-элементная очередь хранения. Он поддерживает 
неблоки-руемый кэш данных первого уровня, который позволяет 
процессору обращаться к другой области кэш-памяти даже в процессе 
замены блока, вызвавшего кэш-промах (ћіё олег гпіѕѕ сасве), 


Узел УЗИ состоит из двух файлов регистров 32х64 бит (по одному на 
поток) и конвейера двойной точности с десятью стадиями. Узел 
работает со 128-разрядным потоком данных [57). Он имеет четыре узла 
для выполнения простых и комплексных векторных операций, 
операций одинарной точности с плавающей запятой и операций 
перестановки. В нем имеются два 32-элементных 128-разрядных 
векторных файла регистров (по одному на поток), а все команды 
являются 128-разрядными 51МР-командами с изменяющейся шириной 
элементов (2х64, 4х32, 8х16, 16х8 и 128х1 разрядов). 


Структура 5РЕ (Ѕупегріѕіс Ргосеѕѕог ЕІетепіѕ) — 
"синергичного" процессорного элемента 


ЗРЕ представляет собой отдельный процессор, выполняющий 
отдельное приложение, но разделяемая когерентная память и большой 
набор команд для РМА позволяет организовать эффективных обмен 
данными между ЅРЕ. 


Выборка инструкций, а также инструкции загрузки/сохранения 
работают только в пределах адресного пространства локальной памяти 
ЗРЕ. Большой объем регистрового файла служит более полному 
заполнению вычислительного конвейера. В каждом ЗРЕ есть 
контроллер потока данных памяти (Метогу Ғіоу СоптоПег — МЕС), в 
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состав которого входит РМА-контроллер (рис. 10.3). 


ЗРЕ может настроить РМА для обмена данными с локальной памятью 
другого ЅРЕ, а также для обмена данными с общей памятью. 


ааваасаа 
Блок операций 
с фиксированной Блок операций 
точкой чтения/записи 
блок операций переходов Локальное ОЗУ 
Блок канальных операций 256 Кбайт 
Прием и пересылка резул татов 
Регистровый файл 
+ 
Буфер инструкций 1 728 байт | [| 128 байт 
при чтении на запись 


Когерентная шина ЕВ 


Контроллер прямого доступа в память 
——% В байт/цикп == 64 байт/цикл 


——% 16 байт/иикл ==> 128 байт/цикл 


Рис. 10.3. Структурная схема процессорного элемента 5РЕ. 


В процессорном элементе 5РЕ реализована новая архитектура системы 
команд, энергопотребление и производительность которой 
оптимизированы для вычислительных и мультимедийных приложений. 
ЅРЕ работает с локальной памятью объемом 256 Кбайт, которая хранит 
команды и данные. Они передаются между этой и системной памятью с 
помощью асинхронных когерентных команд прямого доступа, которые 
выполняются блоком управления потоком данных, входящим в состав 
любого ЅРЕ, 


Каждый ЗРЕ поддерживает до 16 ожидающих выполнения команд 

прямого доступа к памяти (РМА). В этих когерентных командах 

применяются такие же, как в РРЕ, преобразование адресов и защита, 

управляемые таблицами страниц и сегментов из архитектуры Ромег 

АгсБйесцие, поэтому адреса можно передавать между РРЕ и ЅРЕ. 

Вследствие этого операционная система способна использовать общую 
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память и согласованно управлять всеми системными ресурсами. 


Блок РМА может быть запрограммирован одним из трех способов: при 
помощи команд 5РЕ, которые вставляют в очереди команды прямого 
доступа к памяти; путем подготовки в локальной памяти списка команд 
для пересылки содержимого разрозненных участков памяти (5санег- 
дайег РМА) и выдачи единого списка команд РМА; с помощью вставки 
команд в очередь РМА другого процессора (с соответствующими 
привилегиями) и применения команд сохранения или записи РМА. Для 
удобства программирования (чтобы разрешить транзакции РМА типа 
"локальная память — локальная память") локальная память 
отображается на карту памяти процессора, Однако при кэшировании 
эта память не является в системе когерентной. 


Появление локальной памяти вводит новый уровень иерархии памяти 
— в дополнение к регистрам, которые обеспечивают локальное 
хранение данных в большинстве процессорных архитектур. Это 
обеспечивает механизм борьбы с проблемой "стена памяти" (тетогу 
ма, поскольку позволяет одновременно выполнять множество 
транзакций с памятью без глубокой спекуляции, которая сильно снижает 
эффективность других процессоров. Латентность основной памяти 
приближается к 1 тыс. тактов, поэтому те несколько тактов, которые 
нужны для настройки команды РМА при обращении к ней, становятся 
вполне приемлемой дополнительной нагрузкой. Очевидно, что такая 
организация процессора удобна для обработки мультимедийных 
потоков. А поскольку локальная память достаточно велика для 
хранения большего, чем просто ядро (5теапир Кегпе]) потока, возможна 
поддержка самых разных моделей программирования. 


Локальная память — самый крупный компонент ЅРЕ, поэтому была 
очень важна ее эффективная реализация. Для минимизации площади 
использована однопортовая ячейка ЗКАМ. Локальная память имеет 
узкий (128-разрядный) и широкий (128-байтовый) порты чтения и 
записи. Это обеспечивает высокую производительность, хотя она и 
должна выступать в роли арбитра по отношению к операциям чтения, 
записи, выборки команд, загрузки и сохранения с прямым доступом. 
Широкий порт служит для прямого чтения и записи в память, а также 
для упреждающей выборки команд. 
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Поскольку типичная 128-байтовая операция прямого чтения/записи 
требует 16 тактов процессора для пересылки данных по внутренней 
когерентной шине (даже когда операции прямого чтения/записи 
выполняются без ограничений на пропускиую способность), семь из 
каждых восьми тактов остаются доступными для операций загрузки, 
сохранения и выборки команд. Аналогичным образом команды 
выбираются по 128 байтов за раз, и нагрузка на локальную память 
остается минимальной. Наивысший приоритет отдан командам РМА, за 
которыми следуют операции загрузки и сохранения, а операция 
упреждающей выборки команды выполняется, когда есть свободный 
такт, Существует специальная команда "без операции", позволяющая 
при необходимости принудительно обеспечить доступность слота для 
выборки команды. 


Блоки выполнения операций в РЕ работают со 128-разрядным 
потоком данных. Достаточно большой файл регистров из 128 элементов 
позволяет компилятору переупорядочить команды и компенсировать ла- 
тентность их выполнения, Имеется только один файл регистров, а все 
команды являются 128-разрядными 51МР-командами с изменяющейся 
шириной элемента (2х64, 4х32, 8х16, 16х8 и 128х1 разрядов). 


За один такт может быть выдано до двух команд; один слот выдачи 
команды поддерживает операции с плавающей и фиксированной 
запятой, а другой обеспечивает загрузку/сохранение, операции 
перестановки байтов и перехода. Простые операции с фиксированной 
запятой занимают два такта, а команды одинарной точности с 
плавающей запятой и команды загрузки требуют шести тактов. 
Поддерживаются также двухпо-точные 51МР-команды двойной 
точности с плавающей запятой, но максимальная скорость их выдачи 
составляет семь тактов на команду. Все остальные команды полностью 
конвейеризованы, 


Для того чтобы ограничить дополнительную нагрузку на оборудование, 
вызванную прогнозированием ветвлений, программист или 
компилятор могуг "подсказать" переход. Команда подсказки перехода 
уведомляет оборудование об адресе предстоящей команды перехода и 
его целевом адресе, Оборудование (в предположении, что доступны 
слоты локальной памяти) заранее выбирает по меньшей мере 17 команд 
по целевому адресу перехода. Для уменьшения числа ветвлений в коде 
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можно использовать поразрядную команду выбора с тремя 
источниками. 


Настройка РМА-контроллера, а также наличие очередей запросов 
позволяет ЅРЕ работать параллельно с работой РМА. Именно таким 
образом удается избежать простаивания ЅРЕ в результате задержки 
получения данных из основной памяти, 


Основные параметры: 


площадь кристалла — 253 мм2, 

максимальная частота РГЕ, — 17,5 ГГц; 

9 ядер, 10 потоков инструкций; 

пиковая пропускная способность памяти — 25,6 Гб/с; 

пиковая пропускная способность каналов ввода/вывода — 75 Гб/с. 


Несмотря на то, что РРЕ и 5РЕ имеют общую память, между ними есть 
четкое разделение фунаций. РРЕ оптимизирован для решения задач 
управления и смены контекста, в то время как 5РЕ — для решения 
вычислительных задач, 


РРЕ получает доступ к общей памяти посредством инструкций загрузки/ 
сохранения (через иерархию кэшей), перемещающих данные между 
регистровым файлом РРЕ и основной памятью, 


ЅРЕ получает доступ к общей памяти посредством РМА-передач, 
перемещающих данные между локальной памятью ЅРЕ и общей 
памятью СЕЦШ, 


Краткие итоги 


Процессор Сей представляет собой мощную асимметричную 
многоядерную процессорную систему Состоит из процессорного 
элемента Ромет, чаще всего выполняющего управляющие функции, и из 
восьми си-нергичных процессорных элементов, выполняющих 
основную вычислительную работу Ядра объединены при помощи 
двунаправленной кольцевой шины. 


Для борьбы с узким местом при доступе в основную память в 
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процессоре Сей в процессорном элементе РРЕ применяется 
двухуровневый кэш и аппаратная поддержка двух потоков. В элементах 
ЅРЕ присутствует локальная оперативная память объемом 256 Кбайт и 
высокопрозводи-тельный блок прямого доступа в память. 


Контрольные вопросы 


1. Какова топология связей между процессорными элементами в 
процессоре Се? 

. Как реазизована иерахия памяти в процессорном элементе Ромег? 

. Укажите основные составные блоки РРЕ, 

Опишите структуру векторного сопроцессора РРЕ. 

. Как организована подсистема памяти в процессорном элементе 
РЕ? 


л р шо № 


Упражнения 


1. Сравните показатели мультиядерных процессоров Се! с 
процессорами АКМ и МІРЅ, 
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Процессоры АМО 


Данная лекция посвящена процессорам одного из крупнейших игроков 
рынка процессоров — фирмы АМР. Особое внимание уделено 
четырех- и шестиядерным решениям АМР. Дается также краткая 
история и систематизация многообразия процессорных ядер и 
микроархитектур процессоров. 


Хронология процессоров АМО 


Процессоры серии К8 


Представлены в 2003 году Все процессоры серии К8 имеют 
интегрированный контроллер памяти (одноканальный РРК — Зоске 
754, двух-канальный РК — Зоске! 939 / Ѕоскеѓ 940 или двухканальный 
ООВ? — $оске АМ2 / Ѕоске Е) и поддерживают набор инструкций 
АМОб4 (если не указано обратное). 


Таблица 11.1. Процессоры серии К8 


Процессор Ядро Особенности 
5іевећа р Первая модель процессоров Орхегоп (130-нм 
техпроцесс) 
уеп Одноядерные процессоры Орегоп 1хх (90-нм 
техпроцесс) 
то Одноядерные процессоры Орќегоп 2хх (90-нм 
Е техпроцесс) 
Аћепѕ Одноядерные процессоры Орегоп 8хх (90-нм 


техпроцесс) 


Орк 1хх (90-1 
Ореюй — Пептак Двуядерные процессоры Орегоп 1хх (90-нм 


техпроцесс) 

пау Двуядерные процессоры Орїегоп 2хх (90-нм 
техпроцесс) 

Евурі Двуядерные процессоры Орхегоп 8хх (90-нм 
техпроцесс) 

бда Двуядерные процессоры Орхегоп (90-нм 


техпроцесс, Зоскег АМ?) 
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Двуядерные процессоры Оргегоп (90-нм 


Ве 
Запа Вова техпроцесс, Ѕоскеѓ Е) 


Первая модель процессоров АШоп 64 (130-нм 


С1аъућаттег 
техпроцесс, 1 Мб кэша второго уровня) 
Меуусайе Ядро СІамћаттег с частично отключенным 
кэшем второго уровня (512 Кб) 
п А 
ииисвеег роцессоры Ап 64, произведенные по 
Ао 64 обновленному техпроцессу (90-нм) 
Уепісе Ревизия ядра Ипсйезег 
Зап Гео Ревизия ядра Уепке 
Отеапѕ Процессоры Аћоп 64 для Ѕоскеі АМ2 
е Одноядерные процессоры на базе ядра 
Ута К 
ВивЬапе 


Первая модель процессоров Аћоп 64 ЕХ (130- 
нм техпроцесс) 


Процессоры Аћоп 64 ЕХ, произведенные по 
обновленному техпроцессу (90-нм) 


Тоедо Двуядерные процессоры АШюп ЕХ (90-нм) 
Двуядерные процессоры на базе ядра Уепке 


ЗЛедвеватгтег 


АШоп 64 
ЕХ Зап Гіево 


Мане (512 Кб кэша второго уровня, Ѕоске! 939) 
АШоп 64 тоейо Двуядерные процессоры на базе ядра Мепісе (1 
х2 Мб кэша второго уровня, Ѕоске‹ 939) 

уупйвог Двуядерные процессоры на базе ядра О пеапѕ 


(1 Мб кэша второго уровня, Ѕоскес АМ2) 
Двуядерные процессоры, произведенные по 
обновленному техпроцессу (65-нм). 
Переименованные процессоры Аюп 64 Х2 с 
новой системой обозначения моделей 


АШоп Х2 ВизБапе 


Первая модель процессоров Ѕетргоп К8. Ядро 
Меусаѕйе с частично отключенным кэшем 
второго уровня (256 Кб). Инструкции АМЮ64 
заблокированы 


Рагіѕ 


Ядро Мїпсћеѕѓег с частично отключенным 


кэшем второго уровня (128 или 256 Кб) 
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АШоп ХР- 


Мое 
А\Ноп 64 


Тагоп 64 


Тагоп 64 
Х2 


Мое 
Ѕетргоп 


Мапа 
Зраца 


Рип 
Меусаѕйе 


Одеѕѕа 


Оакуће 


Мемагк 


Тиоай 


Тапса$(ег 


Ѕһегтап 


Тауюг 


Туег 


Сеогвеюут 


АЪапу 


Екытопа 


Многоядерные процессоры 
Ядро Оцеапз с частично отключенным кэшем 
второго уровня (256 Кб) 
Ядро Шта с частично отключенным кэшем 
второго уровня (512 Кб) 
Мобильные процессоры. Инструкции АМЮ64 
заблокированы 
Мобильный вариант ядра М№еуусаѕйе 
Процессоры Мое Ап 64, произведенные 
по обновленному техпроцессу (90-нм) 
Процессоры Мое Ап 64 ТУ (их 
наследнимками стали Тагоп 64), 
произведенные по обновленному техпроцессу 
(90-нм) с пониженным энергопотреблением 
Процессоры Мое Ап 64, пришли на 
смену Одеѕѕа с босКе 754 и поддержкой 55ЕЗ 
Двуядерные процессоры Мое АШоп 64 Х2 
(90-нм техпроцесс, арх. КВ теу.Е, 512 Кб кэша 
второго уровня) 
Первая модель процессоров Тигіоп 64 (90-нм 
техпроцесс) 
Процессоры Тигюп 64, произведенные по 
обновленному техпроцессу (65-нм) 
Двуядерные процессоры Типоп 64 Х2 (90-нм 
техпроцесс, 256 Кб кэша второго уровня). 
Ѕоскег 51 
Процессоры Тиюп 64 Х2, произведенные по 
обновленному техпроцессу (65-нм). Ѕоске 51 
Первая модель процессоров Мое Ѕетргоп 
(90-нм техпроцесс, Ѕоскеѓ 754) 
Пришел на смену Сеогвею\мт, отличается 
поддержкой 5583 
Пришел на смену АЪапу, отличается двух- 
канальным контроллером памяти ООБ2 и 
разъемом Ѕоскеї АМ? (арх. К8 теу.Е) 


212 


Калачев А.В 'Многоядерные процессоры 


Процессоры серии АМР К8+ 


Процессоры АМР” К8+, представленные 4 июня 2008 года, базируются 
на усовершенствованной архитектуре К8, которая дополнена рядом 
технологий, применяющихся в процессорах архитектуры К10, такими 
как усовершенствованный контроллер памяти, раздельное управление 
частотами ядер, поддержка шины НурегТгапзрог" 3.0. 


Таблица 11.2. Процессоры серии АМР К8 
Процессор Ядро Особенности 
Тогіоп Си Процессоры Тшіюп Х2 (Лоа 


Процессоры серии К10 


Процессоры серии К10, представленные в 2007 году имеют 
интегрированный контроллер памяти (двухканальный Юрр2, Рркз 
поддерживается процессорами, произведенными только по 45-нм 
техпроцессу), разделяемый кэш третьего уровня и поддерживают набор 
инструкций АМР64. 


Предполагалось, что следующее после К8 семейство процессоров АМО 
будет носить кодовое имя КЭ, но компания АМР” не использует это 
название (предположительно из-за созвучности с "сапіпе" — англ. 
"собачий"). В некоторых источниках новое семейство называется К8Г, 
однако по официальным данным оно имеет наименование К10. 


Таблица 11.3. Процессоры серии К10 
Процессор Ядро Особенности 

Первая модель настольных процессоров Рћепот 
Азепа серии 9х00 (65-нм техпроцесс). Содержит ошибку 
(В2) буфера трансляции адресов, известную как "ТЬВ 

Вид" 

Новая ревизия настольных процессоров Рћепот 
Арепа серии 9х50. Характеризуется повышенными 


Рћепот (ВЗ) частотами и исправленной ошибкой буфера 
трансляции адресов 
тойтап Трехьядерные процессоры серии Рћепот 8х00 (65- 


нм техпроцесс) 
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Двуядерные процессоры Рћепот (65-нм техпроцесс), 


к 
ше выпускаются под торговой маркой А{Ноп Х2 7х50 

Беле Четырехьядерные процессоры Рћепот П (45-нм 
техпроцесс) 

Нека Трехьядерные процессоры серии Рћепот П (45-нм 
техпроцесс) 

Рћепот П .._ Двуядерные процессоры Рћепот П (45-нм 

Са зю 

техпроцесс) 


Четырехьядерные процессоры Ап П (45-нм 
Ргориз техпроцесс). Отличаются от Рћепот П отсутствием 
кэш-памяти третьего уровня 
Трехьядерные процессоры Ап П (45-нм 
Аюп П техпроцесс) 
Кеғог Двуядерные процессоры Аћоп П (45-нм техпроцесс) 


Несмотря на то, что контроллер памяти процессоров К10 имеет 
поддержку памяти РЕЗ, процессоры Рћепот П Х4 920 и 940 Віаск 
Едйіоп выпущены в конструктивном исполнении Ѕоскеі АМ2+ и не 
имеют поддержки памяти РРЕЗ. 


Мультиядерные АМР ОМегоп 


4-ядерные процессоры АМ” ОМегоп 


Одной из архитектурных особенностей Оџа-Соге процессоров АМР 
Орегоп является возможность обратной совместимости с поколением 
Ѕоскег Е чипов, при улучшенном ключевом показателе — 
производительность на ватт (Регіоптапсе-рег- Май. ( рис. 11.1). 


4-ядерные процессоры ( рис. 11.2), несмотря на увеличение физических 
размеров кристалла и значительную реорганизацию внутренней 
архитектуры, остаются в стандартном для топовых двуядерных 
процессоров Оріегоп диапазоне термодизайна — ТОР на уровне 
порядка 95 Вт. Процессоры поддерживают технологию АМР-У, (АМр 
Ушшайеа600)[61-62-63-64-65]. 


Ключевыми технологиями, реализованными в новых 4-ядерных 
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процессорах АМР Оріегоп, являются; 


Майе Оцад-Соге Юеѕірп — "нативная" четырехьядерная архитектура, 
четыре ядра непосредственно на единой подложке; 


Епрапсед АМР РомегМом! — расширенная и улучшенная технология 
оптимизации энергопотребления АМО РомегМом!, позволяющая 
динамически снижать потребление энергии ядрами — до 75% в 
ждущем режиме; 


Пес Соппесі Агсһіесіше — архитектура, позволяющая эффективно 
снять часть традиционных "узких мест" х86-архитектуры: прямое 
подключение шин ввода-вывода НурегТгапзрог (до 8 Гб/с), 
обеспечивающее оперативное взаимодействие между процессорами; 
интегрированный контроллер памяти, эффективно снижающий 
латентность и положительно влияющий на производительность; 
непосредственное подключение памяти ООБ2. 
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Рис. 11.1. Кристалл процессора Оріегоп 


Процессорное ядро 1 | Процессорнае ядро 2| Процессорное ядро 3 | Процессорное ядро 4 


Кэш [2 512 Кбайт Кэш 12 512 Кбайт 


Кэш 1.32 /4 Мбайт 


Кэш1.2 512 Кбайт Кэш2 512 Кбайт 


Ипїврфейр:бистёмных запросов. 


Контроллер памяти ООВ2 
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Рис. 11.2. Структура четырехьядерного процессора Орїегоп 


Аа@уапсед Ргосеѕѕ Тесйпоюду — улучшенный 65-нм техпроцесс 
производства с применением техиологии 501 ($Шсоп-Оп-тзшеаюг); 
малые токи утечек транзисторов процессора позволяют улучшить 
производительность на ватт и снизить тепловыделение. 


Улучшена техиология виртуализации АМР-У ( рис. 11.3). 


Виртуальные 
машины 
— = 
Процессор Процессор 
Контроллер Контроллер 
памяти памяти 


___ № 
Процессор Процессор 
Память |а, || Контроллер “ || Контроллер 
00,2 памяти памяти 


Рис. 11.3. Различие в технологиях виртуализации Ни] и АМО 


Архитектура ГйесЕ Соппесї позволяет увеличивать приложения 
виртуальных машин. Тэгированный буфер ТЁВ ускоряет переключение 
между виртуальными машинами. Аппаратная поддержка управления 
памятью и безопасностью также увеличивает общую 
производительность. 


Преимуществами АМО-У являются следующие моменты: безопасность, 
обеспечиваемая за счет аппаратной реализации Бемсе Ехсшѕіоп Месіог 
(ОЕУ) ( рис. 11.3); производительность, обеспечиваемая благодаря 
архитектуре Рес! СоппесЬ меченых (тэгированых) буферов быстрого 
преобразования адреса, которые снижают нагрузку на канал памяти в 
процессе загрузки новой виртуальной машины, а также специфических 
вложенных таблиц Меяе Раре ТаЫеѕ, которые служат быстрому 
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переключению между виртуальными машинами. 


Реусе Ехесийоп Уесюг позволяет гипервизору определять, разрешен ли 
доступ виртуальной машине или устройству к определенной странице 
памяти или нет. Благодаря интеграции контроллера памяти с 
процессором решения о доступе или отказе виртуальной машине к 
памяти принимаются очень быстро. 


Тэгированый буфер ТЕВ позволяет процессору определять 
принадлежность данных той или иной виртуальной машине и, таким 
образом, при переключении виртаульные машины сразу же получают 
доступ к своим данным, 


218 


Калачев А.В 


ШЕ: № -- № 


Менеджер: виртуальных машин 
{Гипервизор) 


Контроллер памяти 
таблица ОЕМ 


Многоядерные процессоры 


ВМ | Занятые страницы памяти 


=. 5, 14, 28, 29 
Я 3, 9, 15, 20, 27 


4, 7, 13, 22, 25 


‚ 11, 19, 21, 30 


ВМБ 2, 10, 16, 23, 26 


6, 14, 17, 18, 24 


Рис. 11.4. Защита памяти при виртуализации 


Основные моменты, представленные четырехьядерными процессорами 
Ор!егоп: 


• улучшенный механизм предсказания ветвлений; 
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® исполнение команд с изменением последовательности (Ош-оЁ 
огдег); 
• двухпотоковое управление 128-битными инструкциями 58Е; 
• до четырех операций с плавающей запятой двойной точности за 
такт; 
® расширения для обработки групп битов (Г.7СМТ/РОРСМТ); 
ә обработка расширений 55Е (ЕХТВКОЛМ$ЕКТО, МОҮУМТ5р/ 
МОУМТ$5). 


В качестве дополнительного преимущества четырехьядерных 
процессоров ( рис. 11.5) также подчеркивается сбалансированная 
эффективная структура кэша: 64 Кб кэша данных и 64 Кб кэша 
инструкций 11, по 512 Кб кэша 12 на каждое ядро, и, наконец, общий 
распределенный кэш 13 — 2 Мб (Заша Коѕа) и более (4 Мб — 
ГРеегћооп) на процессор ( рис. 11.6). 


Оџад-Соге Оріегоп с кэшем 1.3 сопровождается "обвязкой" с поддержкой 
ТСР Ооа4, контроллерами СураБЕ Ећетеї, Зета! $С51, бета! АТА П с 
поддержкой КАН. Процессоры появившиеся в конце 2008 года, 
поддерживают техиологию Ріесг Соппесё Атсһйесіше 2.0 (НТ 3.0), 
обладают большим кэшем и рядом других новшеств, а в плане "обвязки" 
используют реализации шины РСГ Ехргеѕѕ 2, 10 Сірари Еһегпеб 
контроллеров и т, п. ( рис, 11.7, рис. 11.8). 


Контроллер 
памяти ООВЗ 


Кэш команд, 
первого уровня 11-1 Кэш второго 


Кэш команд уровня _2 
первого уровня 1-0 


Рис. 11.5. Структура процессорного ядра Ор!егоп 
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Е Г] Е 
эш данных Э ны данных 
первого первого 
Уровня (1-0) 


Кэш команд. 
первого 
ровня 1-0) 


Кэш второго, 
уровня 12 
512 Кбайт 512 Кбайт 512 Кбайт 512 Кбайт 


Кэш третьего 
уровня 13 


Рис. 11.6. Структура кэш-памяти АМР Орегоп 


В основу технологии Тогтепға, призванной ускорить обработку данных, 
положена технология Рітсі Соппесі Сотрийпя, а ее реализация будет 
осуществляться за счет слота НТХ и специализированных аппаратных 
акселераторов. 


За улучшение безопасности системы, реализацию возможностей 
виртуализации и улучшение управляемости будет отвечать технология 
Тгіпігу, реализованная на аппаратном уровне в чипе, 


16-битные связи 6,4 Гбайт/с {3,2 Пбайт/с по каждому 
направлению) 
Частота передачи данных 1,6 ГТ/с 
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Рис. 11.7. Ядро процессора с инфраструктурой обмена и передачи 
данных 


т 


‘онтроллер || Интерфейс |Процес- 
памяти системных | сорное 
СрА2 запросов ядро 


Рис. 11.8, Организация связи между ядрами процессора Оріегоп и 
доступ к внешним устройствам и памяти 


Наконец, запланировано снижение общей стоимости владения (ТСО) и 
расширение возможностей клиентского оборудования, в том числе за 
счет реализации возможностей виртуализации — прерогатива 
технологии Ваел. 


6-ядерные процессоры АМО Ођегоп 


Серверы на базе нового шестиядерного процессора АМР Оріегоп тм 

[64] ( рис. 11.9) способны успешно справляться с любыми задачами, 

обеспечивая превосходную эффективность работы и низкий уровень 

энергопотребления по доступной цене, Серверы на базе технологии 

АМР представляют собой единую платформу которая обеспечивает 

выполнение любых бизнес-задач и позволяет снизить расходы на 
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электроэнергию. Инновационный шестиядерный процессор 
обеспечивает более высокую производительность, демонстрируя те же 
показатели энергопотребления и тепловыделения, что и 
четырехьядерные процессоры АМР Орїегоп тм. 


процессорное] Процессорное | Процессорное | процессорное | Процессорное | процессорное 
ядро 2 


ядро 1 ядро 3 ндоо4 ядро 5 ядро ё 
Кэш 12 Кэш? Кэш 12 Кэш? Кэш? Кэш? 
512 Кбайт 512 Кбайт 512 Кбайт 512 Кбайт 512 Кбайт 512 Кбайт 

Кэш 3 6 Мбайт 


Рис. 11.9. Структура шестиядерного процессора Орегоп 


Единая платформа обеспечивает возможности масштабирования с двух- 
до восьмипроцессорных серверов. 


Увеличена пропускная способность (по сравнению с предыдущими 
поколениями) для обслуживания баз данных, электронной почты и 
приложений с помощью таких функций, как НТ А55 5, 


Благодаря высокой вычислительной способности функции Мер 2.0 и 
"облачных" вычислений становятся более доступными, 


Большой выбор различных решений удовлетворяет потребности 
компании и оптимизирует расходы на ИТ. Простота приобретения и 
эксплуатации способствует снижению косвенных расходов и упрощает 
обслуживание сервера. Оптимальные и надежные серверные 
платформы обеспечивают непрерывность работы приложений при 
более низкой общей стоимости, 


Наличие шести ядер в каждом разъеме обеспечивает повышенную 
производительность и эффективность энергопотребления (по 
сравнению с предыдущими поколениями) в многозадачных средах, 
таких как виртуализкция, обслуживание баз данных и веб-серверов. 
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Основные характеристики процессора: 


подлинная шестиядерность; 

поддержка технологии НурегТгапзро" тм ; 

уяеличенная пропускная способность НТЗ; 

технология управления питанием АМО-Р; 

технология виртуализации АМР Утшайаноп тм (АМО-У тм ); 
показатели энергопотребления и тепловыделения идентичны 
показателям четырехьядерных процессоров АМР Орегоп тм ; 

® на 20-50% более высокая производительность, чем у четырехья- 
дерного процессора АМО Орегоп, при том же уровне 
энергопотребления. 


Функция поддержкн технологии НурегТгапзро тм (НТ Азѕѕіѕб) 
позволяет снизить контрольный трафик между процессорами, ускоряя 
выполнение запросов в 4- и 8-процессорных серверных системах и 
повышая производительность требовательных к объему кэш-памяти 
программ, такнх как приложения баз данных, виртуализации, а также 
вычислительных приложений, интенсивно использующих ресурсы 
процессора. 


Технология НурегТгапзром тм 3.0 (НТЗ) позволяет повысить скорость 
обмена данными с 2 ГТ/ (технология НТІ) до 4,8 ГТ/, а также 
обеспечивает стабильность системы и возможности масштабирования, 


Встроенный контроллер памяти ООВ2 ОВАМ; память с низким 
энергопотреблением. Встроенный контроллер памяти АМР работает 
исключительно с памятью ООВ2, отличающейся большой пропускной 
способностью и пониженным энергопотреблением. Надежная, 
доступная и обслуживаемая память повышает устойчивость системы и 
сокращает время простоя, 


Технология АМО-Р и полный набор функций во всей линейке 
продуктов обеспечивают значительную экономию электроэнергии. 


Процессоры АМО Оріегоп имеют встроенный набор функций 
управления питанием АМО-Р, включая технологии АМО РомегМом! 
тм, АМР СооЮСоге тм и Ома! Рупатіс Роугег Мапаретепі тм. Эти 
технологии снижают расход электроэнергии и стоимость эксплуатации 
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систем на базе АМР” Орегоп. 


Технология Епһапсед АМР” РомегҸом! тм с технологией независимого 
динамического ядра Ш4ерепаем Рупапіс Соге позволяет изменять 
частоту каждого ядра в зависимости от нужд конкретных приложений. 
Таким образом, обеспечивается адресное распределение 
электроэнергии для сокращения энергопотребления центров обработки 
данных и, следовательно, снижения стоимости владения, 


Технология Юуџа] Юупатіс Ромег Мапаретеп тм позволяет каждому 
процессору в полной мере использовать преимущества 
усовершенствованной энергосберегающей технологии Епһапсеі АМР 
РомегМоу! без снижения производительности. Пиа! Рупатіс Ромег 
Мапарететі обеспечивает пониженное энергопотребление в режиме 
простоя и управление питанием каждого процессора в многосокетных 
системах. Технология АМО Соо!Соге определяет, какие из элементов 
кристалла — ядра, память или и то и другое — необходимы для 
выполнения того или иного приложения. Для снижения 
энергопотребления и тепловыделения питание неиспользуемых 
транзисторов может быть отключено. АМР РомегСар Мапарег дает 
возможность ИТ-специалистам управлять уровнем питания ядер 
процессора через ВІОЅ. Это позволяет снизить уровень энергопо- 
требления процессора в системе. 


Технология АМО Зтам Ееісһ дает возможность неактивным ядрам 
записывать содержимое своего кэша первого и второго уровней в 
общий кэш третьего уровня. Таким образом они могуг переходить в 
режим ожидания, потребляя меньше энергии и снижая общий расход 
электричества, 


Для поддержкн аппаратного перевода адресов из виртуальной в 
физическую память были разработаны функции Вар Уігіџајғабпп 
Іпдехіпр и Таррей-ТЕЬВ. Это позволяет снизить время задержкн, повысить 
производительность и увеличить количество виртуальных машин на 
каждой физической машине, обеспечивая эффективность и гибкость ИТ- 
среды. 


Функция Ехіепјеїй Міргайпп позволяет осуществлять перенос 
виртуальной машины между двумя физическнми машинами, 


оснащенными процессорами АМР Орегоп тм, на многих платформах 
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виртуализации, АМР Ехіепіей Міргайпп обратно совместима с одно-, 
двух-, четырех- и шестиядерными процессорами АМР Орегоп. 


Технология оптимизированной виртуализкции АМО Мігішаћғлайпп ТМ 
(АМО-У тм ) позволяет добиться эффективной работы виртуальных 
машин и облегчает мигркцию. АМО-У поддерживает виртуализацию на 
уровне ввода-вывода и возможности непосредственного управления 
устройствами виртуальной машиной (необдимы чипсеты 
585690/5 В5670). Это позволяет уяеличить производительность 
благодаря прямому назначению устройств гостевым ОС, а также 
повысить изолкцию и степень защиты виртуальных машин. 


Краткие итоги 


АМР Орегоп включают в себя 4/6 ядер, объединенных между собой при 
помощи архнтектуры Ріесі Соппесі Агсћшесіше. Обеспечивается прямое 
подключение шин ввода-вывода НурегТгапзро" (до 8 Гб/с), дающее 
возможность оперативного взаимодействия между процессорами; 
интегрированный контроллер памяти; непосредственное подключение 
памяти 0082; трехуровневый кэш; оптимизированная система 
управления питанием и виртуализацией. 


АМО-У поддерживает виртуализацию на уровне ввода-вывода и 
возможности непосредственного управления устройствами 
виртуальной машиной (необходимы чипсеты 8$85690/585670). 
Повышенная производительность за счет прямого назначения устройств 
гостевым ОС позволяет повысить ИЗОЛЯЦИЮ и степень защиты 
виртуальных машин. 


Функция поддержки технологии НурегТгапзрой тм (НТ А$$50 
позволяет снизить контрольный трафик между процессорами, ускоряя 
выполнение запросов в 4- и 8-процессорных серверных системах и 
повышая производительность требовательных к объему кэш-памяти 
программ, такнх как приложения баз данных, виртуализации, а также 
вычислительных приложений, интенсивно использующих ресурсы 
процессора. 


Технология Пиа! Оупаше Ромег Мапаретепі ‘тм позволяет каждому 
процессору в полной мере использовать преимущества 
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усовершенствованной энергосберегающей технологии Епһапсеі АМР 
РомегМом! без снижения производительности. Пиа! Рупатіс Ромег 
Мапарететі обеспечивает пониженное энергопотребление в режиме 
простоя и управление питанием каждого процессора в многосокетных 
системах, 


Контрольные вопросы 


Каковы ключевые свойства четырехядерных процессоров АМР 
Орхегоп? 

Как организована подсистема памяти мультиядерных процессоров 
АМР Орегоп? 

Опишите структуру шестиядерных процессоров АМР Оріегоп 

Как реализовано управление питанием в процессорах АМР? 

Для чего применяется технология НурегТгапзрог в процессорах 
АМР? 


Упражнения 


1. 


2. 


Проследите динамику развития процессоров АМО по следующим 
показателям —Й количество транзисторов, технологический 
процесс, пиковая производительность, потребляемая мощность, 
По резульгатам предыдущего упражнения сделайте вывод о том, 
насколько соответствует динамика развития процессоров закону 
Мура. 
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Процессоры архитектуры ЅРАКС 


Лекция посвящена одному из самых "молодых" процессоров ЅРАКС- 
архнтектуры — 1ЛтаЅРАВС Т2. Процессоры $РАВС практическн с 
момента появления данной архитектуры были нацелены на аппаратную 
поддержку нескольких потоков. На данный момент они 
позиционируются как "сервер на кристалле", интегрируют не только 
контроллеры памяти, но и сетевые интерфейсы и криптографические 
модули. Процессоры ЗРАВС и в настоящее время лидируют по 
количеству одновременно поддерживаемых потоков одним ядром. 


Хронология современных процессоров 5РАВС 


ЗРАВС  (5савЫе  Ргосеззог  АВСШесиие) — масштабируемая 
процессорная архнтектура) — архитектура В1$С-микропроцессоров, 
первоначально разработанная в 1985 году компанией бип Місгоѕуѕіегт. 


Архитектура ЅРАВС является открытой — это значит, что: 


® архитектура системы команд ЅРАКС опубликована как стандарт 
ТЕЕЕ 1754—1994; 

• спецификации ЅРАВС доступны для лицензирования любой 
компанией или частным лицом и дают возможность 
разрабатывать свои собственные решения; 

® развитием  архнтектуры  ЗРАВС занимается независимая 
некоммерческая организация $РАВС Пиегпабппа|, пс., основанная 
в 1989 году Членство в 5РАВС Ілегпабппа] открыто для всех 
желающих, 


Для производства процессоров с архнтектурой ЅРАВС достаточно 
купить у ЅРАКС Пиегпабопа| с. лицензию на архитектуру системы 
команд ($99) и разработать свою реализацию архитектуры, либо 
закупить готовую реализацию (что несколько дороже). 


Таблица 12.1. Процессоры ЗРАВС 

Частота, Версия 
Н м Ч 
Год азвание одель (мгу) архите М 


2007 ОғаЅРАВС Т2 (Фавага Ѕип 
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2007 2) 5МЕ1908А 
ОиғаЅРАВС Т2 Р\иѕ 5ш 
2008 (Уісіогіа Ра) $МЕ!910А 1200-1400 У9 /0А 2007 
2008 ИНта5РАКС Т2 5и Т5240 1200 У9 / ЧА 2007 
2008 ЅРАВС64 УП (Јирйег) Рийби 2400-2520 %9/1Р52 
Е 
2009 О1таЅРАВС ВК (Воск) ЅМЕ1832 2300 У9 /ЧА 


Существовало несколько ревизий архитектуры РАКС. Самыми 
последними являются версии 8 и 9. Версия 8 архнтектуры $РАВС 
описывает 32-разрядный микропроцессор, тогда как версия 9 — 64- 
разрядный [6,71,72]. 


Ѕип а Ѕрагс Т2 


Процессор  Ийгабрас Т2 [66-67-68-69-71-72] позиционируется 
производителем не только как сугубо серверное решение — он также 
может использоваться в хранилищах данных, сетевых устройствах 
(инфраструктуры ИМАХ, 3С/4С) и в готовых решениях (так называемых 
ѕеі-1ор-рох). 
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Рис. 12.1. Кристалл Ога Зрагс Т2 


Процессор представляет собой высокоинтегрированную многоядерную 
и многопоточную систему на кристалле (50С) (рис. 12.2), Поскольку 
современные процессоры работают быстрее, чем память, обычно 
процессор тратит значительную часть своего времени, ожидая данные 
из памяти. Процессоры ОЁгаёбРАЮС Т2 содержат 4, 6 или 8 
независимых 64-разрядных 5РАВС-ядер, каждое из которых имеет 
аппаратную поддержку выполнения восьми независимых потоков. 
Поток может быть частью параллельной программы или отдельной 
программой [68]. 


В сумме процессор может обрабатывать до 64 потоков (это свойство 
особо востребовано в 10-й версии Ѕојагб 0$). Тактовые частоты для 
этого процессора доступны в диапазоне 900-1400 МГц. На каждое ядро 
в процессоре имеется по одному криптографическому сопроцессору (так 
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называемые процессоры "безопасности"), 


Блок сетевого 
интерфейса: 


{ { 1 1 


Контроллер | контроллер) |Контроллер| [Контроллер 
памяти памяти 


+ 


Рис. 12.2. Структура процессора Ѕ5ил та Ѕрагс Т2 


Ядро ЅРАКС 


Каждое процессорное ядро содержит два целочисленных 
исполнительных блока, один блок с плавающей точкой, графический 
блок и блок криптографии. Потоки статически ассоциированы с 
каждым исполнительным модулем, до четырех потоков на 
целочисленный модуль, 


Аппаратно ЅРАКС-ядро поддерживает восемь потоков. Поддержка 
включает в себя полный регистровый файл (с восемью регистровыми 
окнами), включая большинство привилегированных регистров на 
каждый поток. Потоки разделяют между собой кэши инструкций и 
данных, блок вычислений с плавающей точкой (наличия одного блока с 
плавающей точкой вполне достаточно для многопоточных 
коммерческих приложений, в которых операции с плавающей точкой 
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занимают порядка 1% от общего потока инструкций) [68, 69]. 


Каждое ядро имеет встроенный восьмиканальный кэш инструкций 
первого уровня размером 16 Кб, интегрированный с четырехканальным 
кэшем данных первого уровня. Кэш-память второго уровня составляет 4 
Мб и разделяется всеми восемью ядрами процессора. Кэш второго 
уровня разделен на восемь банков, которые поддерживают восемь 
последовательных запросов к памяти для обеспечения высокой 
пропускной способности канала памяти. Пропускная способность 
подсистемы памяти при этом достигает 60 Гб/с. 


Процессор Оша ЅРАВС Т2 имеет также встроенный контроллер для 
шины РСЕ и два 10 Гбит/с контроллера для сетей Еегпеї. 


Восемь процессорных ядер Міарага 2 связаны матричным 
переключателем с восемью банками 16-канального модульно- 
ассоциативного кэша второго уровня, общим объемом 4 Мбайт (у 
Міарага 1 — З Мбайт). Поскольку нагрузка на кэш в новом процессоре 
возросла вдвое, а объем кэша увеличился лишь на треть, для 
поддержания высокой производительности процессора разработчикам 
пришлось увеличить пропускную способность системы памяти, Вместо 
четырехканальной памяти ООЕ2, реализованной в М№Міарага 1, в 
процессоре используются четыре сдвоенных канала ЕВЫММ РРАМ. 
Несколько большая по сравнению с ООВ 2 энергоемкость новой 
подсистемы памяти с лихвой окупается приростом производительности 
— по оценкам разработчиков, в 1,7 раза. 


О!та5РАВС Т2 также может быть сконфигурирован на работу в режимах 
четырех или двух банков кэша второго уровня (с размерами 1/2 и 1/4 
общего размера кэша соответственно). 


Процессор оборудован четырьмя контроллерами памяти и может 
работать с 64 банками памяти стандарта ЕВ-ЮІММ. Каждый из 
котроллеров памяти обслуживает обращения к памяти от пары банков 
кэша второго уровня. В сокращенной конфигурации обращение к памяти 
может задействовать один из ЕВО-каналов (в нормальном режиме 
используются два канала). Каждое обращение к памяти выполняется 
независимо и может иметь независимый размер памяти и тип 
динамической памяти (РММ). К примеру, различное количество гапкѕ 


или различная длительность СА5-импульса. Программное обеспечение 
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не должно занимать адресное пространство, более чем в четыре раза 
большее, чем наименьший объем в обращении кэша, поскольку линии 
кэша перекрываются вызовами кэша, 


Частота РЕАМ-контроллера такая же, как и у РРЕ-шины, которая 
является удвоенной частотой РРВ-памяти, ЕВОІММ-линии работают 
на частоте в шесть раз большей, чем РРВ-шины [70-71-72]. 


Процессоры семейства М№іарага считывают инструкции парами (четная и 
нечетная). При этом четная инструкция сразу же поступает в конвейер, 
а нечетная сохраняется в буфере до тех пор, пока не придет ее очередь (в 
каждый данный момент времени в конвейере находится одна 
инструкция). В ядре процессора М№Міарага 2 количество буферов 
инструкций увеличено до восьми (у каждого потока теперь свой буфер). 
В конвейере М№Міарата 2 появились дополнительные стадии. Конвейер 
целочисленных операций стал восьмистадийным, тогда как при 
выполнении инструкций, работающих с данными с плавающей 
запятой, конвейер насчитывает 12 стадий. 


Некэшируемый (МСО) блок выполняет декодирование передач, 
адресованных в пространство ввода-вывода, и направляет их на 
соответствующие блоки (ОМО, ССІ). В дополнение к этому МСО 
работает основным (тамю5$) регистром статуса для внешних 
прерываний. Возможно также обнаружение коллизий прерываний, 
система почтовых ящиков, ІМТХ, МІ, М5/-Х, 


Блок системного интерфейса (5уѕѓет Гпегјасе Оті (517) соединяет 
ОМИ и кэш второго уровня. 517 — точка доступа для кэша 12 в сетевую 
подсистему Интерфейс 510-12 Сасће также является точкой захвата для 
доступа к шине РСТ-Ехргез$. 


(Леа$РАВС Т2 имеет высокоскоростной последовательный интерфейс 
(50 Мб/с 551), который соединяет его с программируемым массивом 
(ЕРСА), служащим для связи с загрузочным ПЗУ. Также $5 
поддерживает режим простых линий ввода-вывода, 


В дополнение процессор содержит два контроллера РСТ Ехргеѕѕ, два 

1/10 Гб/с Ефегпе контроллера МАС-уровня с интерфейсами ХАПТ. 

Реализация РС включает поддержку спецификации 1.0а, 

поддерживаются конфигурационные режимы х1, х4, х8 при скорости 
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данных 2,5Гб/с. Интерфейсы РСе и ХАІ могуг быть 
запрограммированы для поддержкн коротких и длинных связей, для 
работы и в блейд-приложениях, и в приложениях бэк-зоны. 


Интерфейс РСЁе оперирует на частоте 2,5 ГГц. Возможно управление 
уровнем сигнала для оптимизации передачи на короткне или длинные 
линии связи. Его реализация также включает поддержку транспортного 
уровня, уровня связи логического подуровня физического уровня. 


Блок сетевых интерфейсов имеет две линии интерфейсов со скоростями 
10 Гб/с, два ХАЎТ-интерфейса, каждый из которых состоит из четырех 
полосного коммутатора СМІ, поддерживает дифференциальные 
сигналы в полосе 3,125 ГГц с программируемым уровнем сигнала. 
Каждый интерфейс имеет четыре приемо-передающие пары. 
Поддерживаются контрольные сигналы МПО, аппаратное 
формирование и нумерация пакетов, классификация пакетов "на лету" 
на базе информации 1-4 уровней стека протоколов. Блок также имеет 
множественную поддержку прямого доступа в память и аппаратную 
поддержку виртуализации. 


10-гигабитный Ефегпе! МАС (10СЬЕ) поддерживает 16 МАС-адресов на 
порт, поддержку кадров длиной до 9216 байт, поддержку пауз между 
кадрами по стандарту ІЕЕЕ 802,3, Возможна настройка времени паузы. 
Поддерживаются сброс пакетов, содержащих ошибкн, проверка ошибок 
пакетов, вычисление и проверка контрольной суммы, сброс пакетов с 
ошибкой контрольной суммы. 


Примеры применения процессоров Ска Ѕрагс Т2 представлены на рис. 
12.3-рис. 12.6. 


Оттоволокно + + | 5өгрев. 
оптический приемопердатчик Процессор 
Б Интерфейс | Лига БРАВС Т2 
товслокна + 
—+ + 
оптический приемопердатчик баев 


Рис, 12.3. Серверы приложений, системы обнаружения вторжений, 
криптография, контроллеры беспроводных сетей — 10 Гб/с решение 
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Оптоволокно 

о 12-портовый р Процессор 
24 ГБ ЕНеглеЕ 
коммуникатор 


Ога. ЗРААС Т2 


Оптоволокно 


—> у 1— 
лара Модиа-конвектор 


Рис, 12.4. Серверы приложений, системы обнаружения вторжений, 
криптография, контроллеры беспроводных сетей — 12/24 Гб/с решение 


Номинальное энергопотребление процессора составляет 95 Вт, 
максимальное — 123 Вт. Спектр возможных конфигураций количества 
ядер процессора, тактовых частот и потребляемой мощиости 


представлены в таблице 12.2. 


Таблица 12.2. Энергопотребление процессоров 
СОигаѕРАВС Т2 при напряжении питания 1,1 В 


Число ядер Частота (ГГц) Потребляемая мощиость (Вт) 


8 12 91 
8 0,9 65 
6 0,9 57 
4 0,9 46 


Биейд-сервер 


Процессор 
Уйга ЗРААС Та 


Рис. 12.5. Блейд-системы (АТСА) 
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Блейд-сервер Модуль перехода. 
Зана 3 (20пе 3) 


(ВТМ) 


Кмыодулю перехоңа М ЕЕ 
Процессор | зона? (20пе2; Наи 
Инта ВРАКС Т2 ме Еіһегеі 
коммутатор 
панели и 
коммутацианной ы Эптоволекно |+ + 
стойке Й 


Оптоволокно 


Рис. 12.6. АТСА-блейд-система с несколькнми 1 или 10 Гб/с 
интерфейсами на КТМ 


По данным би, производительность при выполнении отдельного 
потока (при полной загрузке многопоточной системы процессора), 
содержащего целочисленные инструкции, должна возрасти на 40%. 
Учитывая незначительный прирост тактовой частоты, а также тот факт, 
что большее количество потоков потребует более сложного механизма 
переключения, 40-процентный прирост производительности следует 
отнести на счет различных микроархитектурных улучшений. В то же 
время производительность приложений, нуждающижя в большом 
количестве вычислений с плавающей запятой, возрастет на порядок. В 
отношении энергопотребления показатели №іарага 2 выглядят не менее 
впечатляюще, По словам одного из разработчиков, Грега Грохоцки, 
Міарага 2 обеспечивает вдвое большую производительность на каждый 
затраченный ватт по сравнению с предыдущей моделью. В целом 
процессор Марага 2 можно рассматривать как удачную основу для 
построения недорогих серверов, в которых способность обрабатывать 
много потоков одновременно важнее высокой скорости выполнения 
каждого отдельного потока, 


Краткие итоги 


Процессор ИЁга5РАЕЮС Т2 представляет собой высокоинтегрированную 
многоядерную и многопоточную систему на кристалле. Процессоры 
содержат от четырех до восьми независимых 64-разрядных 5РАВС- 
ядер, каждое из которых имеет аппаратную поддержку выполнения 
восьми независимых потоков. Каждое из ядер имеет два 


целочисленных исполнительных блока, математический сорпоцессор, 
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криптографический сопроцессор. Имеет интегрированные контроллеры 
памяти, системной шины РС, Ећегпеі-контроллеры. 


Основная область применений — серверы приложений, веб-серверы. 


Контрольные вопросы 


1. 
25 
3, 
4. 


Опишите структуру процессоров Ийта5РАЕС Т2. 

Как организована многопоточность в архитектуре ЅРАВС? 
Укажите типовые схемы применения процессоров 5РАБС. 
Как организована кэш-память в ИУйта5РАЕС Т2? 


Упражнения 


1. 


Проследите динамику развития процессоров архитектуры ЗРАВС 
по следующим показателям — количество транзисторов, 
технологический процесе, пиковая производительность, 
потребляемая мощиость, количество аппаратно поддерживаемых 
потоков на одно ядро, количество ядер. 

Сравните относительные показатели производительности 
процессоров ЅРАВС в разрезах; пиковая производительность/ 
потребляемая мощность и технологический процесс/потребляемая 
мощность. Дайте характеристику полученным зависимостям. 
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Процессоры е! 


В леации рассматриваются особенности одной из новых архитектур 
многоядерных процессоров фирмы Ние] — архитектуры М№еһајет, Данная 
архитектура включает в себя ряд усовершенствований по сравнению с 
предыдущими архитектурами, устранен ряд узкнх мест. 


Хронология процессоров Пие| 


64-битные процессоры: ЕМ64Т — Микроархитектура Іше! Соге Хеоп 
Уоодсге( — 65-нм технологический процесс. 


Микропроцессор для серверов и рабочих станций с поддержкой 
симметричной многопроцессорности ($МР) (в случае 
двухпроцессорных систем). 


Представлен 26 июня 2006 года. 
Двухьядерный Риа!-Соте микропроцессор. 
Поддержка инструкций 51МР; 55Е4. 


Реализованы технологии: 


• ше Умиайайоп Тесһпоіоду — поддержка нескольких 
операционных систем на одном компьютере; 

• ЕІЅТ (Епһапсей ие] ЅреейЅіер Тесһпоіору) в моделях 5140, 51481У, 
5150, 5160; 

® Ехесие Ркађе Ві; 

• ГаСтапде Тесһюіору — епһапсей ѕесигіу һагдҹмаге ехіепѕіоп; 

* 1АМТ2 (ше Асе Мапарешепг Тесһлоіору) — удаленное 
управление компьютерами. 


Варианты: 


• Хеоп 5160 — 3,00 ГГц (4 Мб І2, 1333 МГц ЕЅВ, 80 Вт); 
® Хеоп 5150 — 2,66 ГГц (4 Мб І2, 1333 МГц ЕЅВ, 65 Вт); 
• Хеоп 5140 — 2,33 ГГц (4 Мб І2, 1333 МГц ЕЅВ, 65 Вт); 
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® Хеоп 5130 — 2,00 ГГц (4 МбІ2, 1333 МГц ЕВ, 65 Вт); 
• Хеоп 5120 — 1,86 ГГц (4 Мб 12, 1066 МГц ЕВ, 65 Вт); 
• Хеоп 5110 — 1,60 ГГц (4 Мб Г, 1066 МГц ЕЅВ, 65 Вт); 
® Хеоп 5148ГУ — 2,33 ГГц (4 Мб 12, 1333 МГц ЕВ, 40 Вт) — Го» 
Маде Едйюп. 


Сіоуегіомт — 65-нм технологнческий процесс, 


Микропроцессор для серверов и рабочих станций с поддержкой 
симметричной многопроцессорности ($МР) (в случае 
двухпроцессорных систем). 


Представлен 13 декабря 2006 года. 
Четырехьядерный Оца4-Соге микропроцессор. 
Реализованы технологии; 


® ше  Умиайайоп Тесһпоіоду — поддержка нескольких 
операционных систем на одном компьютере; 

ЕІЅТ (Епвапсед Пие] ЅреейЅіер Тесһпо!ору); 

Ехесше ОБаМе Ви; 

ГаСтапае Тесһтюјору — епһапсей зесшйу Вагамуаге ехепзю15; 

$55Е3 51МР іпѕітисііотѕ; 

ЇАМТ2 (ше Асбуе Мапарешеп Тесһпојору) — удаленное 
управление компьютерами. 


Варианты: 


Хеоп Х5355 — 2,66 ГГц (2х4 Мб 12, 1333 МГц ЕЅВ, 105 Вт); 

Хеоп Е5345 — 2,33 ГГц (2х4 Мб Г, 1333 МГц РВ, 80 Вт); 

Хеоп Е5335 — 2,00 ГГц (2х4 Мб Г, 1333 МГц Е5В, 80 Вт); 

Хеоп Е5320 — 1,86 ГГц (2х4 Мб Г, 1066 МГц ЕЗВ, 65 Вт); 

Хеоп Е5310 — 1,60 ГГц (2х4 Мб Г, 1066 МГц ЕВ, 65 Вт); 

Хеоп 1.5320 — 1,86 ГГц (2х4 Мб І2, 1066 МГц ЕВ, 40 Вт) — Гом 
УоНаде Едйюп. 


ие! Соге 2 
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Сопгое — 65-нм технологнческий процесс. 


Микропроцессор для настольных систем. 


Представлен 27 июля 2006 года. 


Поддержка инструкций 5/МР: 55Е3. 


Количество транзисторов: 291 миллион у моделей с 4 Мб кэш-памяти. 


Реализованы технологии; 


®_ ше Утшайганоп Тесһпоіоду — аппаратная виртуализация; 
• ГаСтапфе Тесһлоіюру — аппаратная технологня защиты 


информации; 


® Ехесше Оқађе Ві; 
* ЕІЅТ (Епһапсей Пие] Ѕрееа 5їер Тесһю!ору); 


ЇАМТ2 (ше Асбуе Мапарешепг Тесһпюјору) — удаленное 
управление компьютерами, 


Сокет: .СА775 


Варианты: 
• Соге2 Рио Е6850 — 3,00 ГГц (4 Мб 12, 1333 МГц ЕЅВ); 
• Соге 2 Рио Еб800 — 2,93 ГГц (4 Мб Г, 1066 МГц ЕВ); 
• Соге 2 Рио Еб750 — 2,67 ГГц (4 Мб Г2, 1333 МГц ЕЅВ); 
• Соге 2 Рио Еб700 — 2,67 ГГц (4 Мб 12, 1066 МГц ЕВ); 
• Соге 2 Рио Ебб00 — 2,40 ГГц (4 Мб І2, 1066 МГц ЕВ); 
• Соге 2 Рио Е6550 — 2,33 ГГц (4 Мб 12, 1333 МГц ЕЅВ); 
• Соге 2 Рио Еб420 — 2,13 ГГц (4 Мб Г, 1066 МГц ЕВ); 
• Соге 2 Рио Еб400 — 2,13 ГГц (2 Мб Г, 1066 МГц ЕВ); 
• Соге2 Рио ЕбЗ20 — 1,86 ГГц (4 Мб 12, 1066 МГц ЕЅВ); 
® Соге2 Рио ЕбЗ00 — 1,86 ГГц (2 Мб 12, 1066 МГц ЕЅВ). 


АЛПепіаје — 65-нм технологический процесс. 


Микропроцессор для настольных систем. 


Представлен 21 января 2007 года. 


240 


Калачев А.В 'Многоядерные процессоры 


Поддержка инструкций 51МР: 55Е3, 
Количество транзисторов: 167 миллионов. 


Реализованы технологии: 


* ТаСтапае Тесһпојору — аппаратная технология защиты 
информации; 

® Ехесше Окађе Ві; 

* ЕІЅТ (Епһапсеа Пие] Ѕрееа 5їер Тесһпю!ору); 

* 1АМТ2 (ше Асёуе Мапаретепг Тесһпоіору) — удаленное 
управление компьютерами. 


Сокет: [СА775 


Варианты; 
• Соге 2 Био Е4700 — 2,60 ГГц (2 Мб 12, 800 МГц ЕЅВ, нет УТ); 
• Соге 2 Рио Е4600 — 2,40 ГГц (2 Мб 12, 800 МГц ЕЅВ, нет УТ); 
• Соге 2 Рио Е4500 — 2,20 ГГц (2 Мб 12, 800 МГц ЕЅВ, нет УТ); 
• Соге 2 Био Е4400 — 2,00 ГГц (2 Мб 12, 800 МГц ЕЅВ, нет УТ); 
• Соге 2 Био Е4300 — 1,80 ГГц (2 Мб 12, 800 МГц ЕЅВ, нет УТ); 
• Соге 2 Био Е4200 — 1,60 ГГц (2 Мб 12, 800 МГц ЕЅВ, нет УТ). 


Сопгое ХЕ — 65-нм технологический процесс. 

Микропроцессор для настольных систем серии еХ еше Ейійоп. 
Представлен 27 июля 2006 года. 

Реализованы те же технологии, что и у микропроцессора Сотое, 
Сокет: [СА775. 

Варианты; 


® Соге 2 Ехтете Х6900 — 3,20 ГГц (4 Мб 12, 1066 МГц ЕЅВ) — 
планировался к выпуску, однаю был отменен; 
* Соге 2 Ехнеше Х6800 — 2,93 ГГц (4 Мб Г, 1066 МГц ЕЅВ). 


241 


Калачев А.В Многоядерные процессоры 
Мегот — 65-нм технологический процесс. 


Мобильный микропроцессор. 


Представлен 27 июля 2006 года. 


Реализованы те же технологии, что и у микропроцессора Сотое, 


Сокет: ЅосКкеї 479. 


Варианты; 


ооо оо ооо ое е о 


Соге 2 Рио 7700 — 2,40 ГГц (4 Мб 12, 800 МГц ЕЅВ) (платформа 
Ѕата Воза); 

Соге 2 Рио Т7600 — 2,33 ГГц (4 Мб 12, 667 МГц ЕЅВ); 

Соге 2 Рио Т7500 — 2,20 ГГц (4 Мб 12, 800 МГц ЕЅВ); 

Соге 2 Рио Т7400 — 2,16 ГГц (4 Мб 12, 667 МГц ЕЅВ); 

Соге 2 Рио Т7300 — 2,00 ГГц (4 Мб 12, 800 МГц ЕВ); 

Соге 2 ио Т7250 — 2,00 ГГц (2 Мб 12, 800 МГц ЕВ); 

Соге 2 Рио Т7200 — 2,00 ГГц (4 Мб 12, 667 МГц ЕВ); 

Соге 2 Рио Т7100 — 1,80 ГГц (2 Мб 12, 800 МГц ЕВ); 

Соге 2 Рио 75800 — 2,00 ГГц (2 Мб 12, 800 МГц ЕВ); 

Соге 2 Рио 75750 — 2,00 ГГц (2 Мб 12, 667 МГц ЕВ); 

Соге 2 Рио Т5600 — 1,83 ГГц (2 Мб 12, 667 МГц ЕЅВ); 

Соге 2 Рио Т5500 — 1,66 ГГц (2 Мб 12, 667 МГц ЕЅВ); 

Соге 2 Рио Т5200 — 1,60 ГГц (2 Мб 12, 533 МГц ЕЅВ); 

Соге 2 Рио Т3200 — 2,00 ГГц (1 Мб 12, 667 МГц ЕЅВ); 

Соге 2 Био 17500 — 1,60 ГГц (4 Мб 12, 800 МГц ЕЅВ) (низкое 
энергопотребление); 

Соге 2 Био 17400 — 1,50 ГГц (4 Мб 12, 667 МГц ЕЅВ) (низкое 
энергопотребление); 

Соге 2 Рио 17300 — 1,40 ГГц (4 Мб 12, 800 МГц ЕЅВ) (низкое 
энергопотребление); 

Соге 2 Рио 17200 — 1,33 ГГц (4 Мб 12, 667 МГц ЕЅВ) (низкое 
энергопотребление); 

Соге 2 Рио 07600 — 1,20 ГГц (2 Мб 12, 533 МГц ЕЅВ) 
(ультрамобильный); 

Соге 2 Рио 07500 — 1,06 ГГц (2 Мб 12, 533 МГц ЕЅВ) 
(ультрамобильный), 
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Кегизйе4 — 65-нм технологический процесс. 


Микропроцессор для настольных систем с четырьмя ядрами (Оца@ 
Соге). 


Представлен 13 декабря 2006 года. 
Количество транзисторов: 582 миллиона. 


Реализованы те же технологии, что и у микропроцессора Сопгое, но в 
отличие от него имеет 4 ядра. 


Сокет: ЅосКкеї 775. 


Варианты; 


* Соге 2 Ехітете 9Х6850 — 3,00 ГГц (2х4 Мб 12, 1333 МГц ЕЅВ) 


(16 июля 2007 г); 

• Соге 2 Ехнеше 0Х6800 — 2,93 ГГц (2х4 Мб 12, 1066 МГц ЕЅВ) (9 
апреля 2007 г); 

• Соге 2 Ехнеше 0Х6700 — 2,66 ГГц (2х4 Мб 12, 1066 МГц ЕЅВ) (4 
ноября 2006 г); 


• Соге 2 Оџай 06700 — 2,66 ГГц (2х4 Мб 12, 1066 МГц ЕЅВ) (16 
июля 2007 г); 

* Соге 2 Ошай 06600 — 2,40 ГГц (2х4 Мб 12, 1066 МГц ЕЅВ) (7 
января 2007 г). 


УюНае/Уогкве — 45-нм технологический процесс, 
Микропроцессор для настольных систем. 
Поддержка инструкций 5$1МР: $5Е4.1. 


Количество транзисторов: 
® 410 миллионов у моделей с двумя ядрами и 6 Мб кэш-памяти. 
® 820 миллионов у моделей с четырьмя ядрами и 12 Мб кэш- 


памяти, 


Площадь ядра: 
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® 107 мм? — для моделей с двумя ядрами, 
ө 214 мм? — для моделей с четырьмя ядрами. 


Представлены: 


® 12 ноября 2007 года — 15 моделей серии Пи] Хеоп и модель Соге 


2 Ехтете 0Х9650 (3,0Ггц); 
* 7 января 2008 года — настольные и мобильные Соге 2 Пио с двумя 
ядрами [3]; 


® І квартал 2008 года — настольные Соге 2 Рио с четырьмя ядрами 
и некоторые модели Хеоп. 


Сокет: .СА775 (настольные), 5479 (мобильные), .СА771 (Хеоп). 


Вместо производства транзисторов МОЅҒЕТ (канальный полевой 
униполярный МОП-транзистор) внутри процессора на технологии с 
диоксидом кремния, которая работает с 1960-х годов, ие впервые 
производит транзисторы по новой технологии — с диэлектриком Нірћ- 
к 


Варианты; 


настольная линейка Соге 2: 


• Соге 2 Глю Е7200 — 2,53 ГГц (3 Мб 12, 1066 МГц ЕЅВ) (11 мая 
2008 года); 

• Соге 2 Ошо Е7300 — 2,66 ГГц (3 Мб 12, 1066 МГц ЕЅВ) (10 
августа 2008 года); 

• Соге 2 Рио Е7400 — 2,8 ГГц (3 Мб 12, 1066 МГц ЕЅВ) (19 октября 
2008 года); 

® Соге 2 Био Е7500 — 2,93 ГГц (3 Мб 12, 1066 МГц ЕЅВ) (18 января 
2009 года); 

® Соге 2 Рио Е7600 — 3,06 ГГц (3 Мб 12, 1066 МГц ЕЗВ) (3 июня 
2009 года); 

ә Соге 2 Био Е8190 — 2,66 ГГц (6 Мб 12, 1333 МГц ЕЗВ) (7 января 
2008 года) (аналог Е8200 но без технологии Пие]! УТ); 

® Соге 2 Ошо Е8200 — 2,66 ГГц (6 Мб 12, 1333 МГц ЕЗВ) (7 января 
2008 года); 

• Соге 2 Био Е8300 — 2,83 ГГц (6 Мб 1.2, 1333 МГц ЕЅВ) (20 апреля 
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2008 года); 

® Соге 2 Био Е8400 — 3,00 ГГц (6 Мб 12, 1333 МГц ЕЗВ) (7 января 
2008 года); 

ә Соге 2 Био Е8500 — 3,16 ГГц (6 Мб 12, 1333 МГц ЕЅВ) (7 января 
2008 года); 

• Соге 2 Ошо Е8600 — 3,33 ГГц (6 Мб 12, 1333 МГц ЕЅВ) (10 
августа 2008 года); 

• Соге 2 Оџай 08200 — 2,33 ГГц (2х2 Мб 12, 1333 МГц ЕЗВ) (31 
авгу- ста 2008 года); 

• Соге 2 Оца 08300 — 2,5 ГГц (2х2 Мб 12, 1333 МГц ЕЅВ) (30 
нояб- ря 2008 года); 

• Соге 2 Оцаа 08400 — 2,66 ГГц (2х2 Мб Г, 1333 МГц ЕЅВ) (19 ап- 
реля 2009 года); 

• Соге 2 Оцад 09300 — 2,50 ГГц (2х3 Мб 12, 1333 МГц ЕЗВ) (1 
квар- тал 2008 года); 

• Соге 2 Опа 09400 — 2,66 ГГц (2х3 Мб 12, 1333 МГц ЕЅВ) (Ш 
квар- тал 2008 года); 

• Соге 2 Опа 09450 — 2,66 ГГц (2х6 Мб 12, 1333 МГц ЕЗВ) (1 
квар- тал 2008 года); 

• Соге 2 Оца@ 09550 — 2,83 ГГц (2х6 Мб 12, 1333 МГц ЕЗВ) (1 
квар- тал 2008 года); 

® Соге 2 Очаа 09650 — 3,00 ГГц (2х6 Мб 12, 1333 МГц ЕЅВ) (Ш 
квар- тал 2008 года); 

® Соге 2 Ехтете 0Х9650 — 3,00 ГГц (2х6 Мб 12, 1333 МГц ЕЅВ) 
(12 ноября 2007); 

* Соге 2 Ехітете 0Х9770 — 3,20 ГГц (2х6 Мб 12, 1600 МГц ЕЅВ) (І 
квартал 2008 года); 

® Соге 2 Ехітете 0Х9775 — 3,20 ГГц (2х6 Мб 12, 1600 МГц ЕЅВ) (І 
квартал 2008 года) (.СА771, для Пие] Зкитай, "настольный" аналог 
Хеоп Х5482), с поддержкой симметричной многопроцессорности 
($МР), ограниченной двумя микропроцессорами, 


Мобильная линейка Соге 2 (Репгуп): 


* Соге 2 По Р7350 — 2,00 ГГц (3 Мб 12, 1066 МГц ЕЅВ) (Ш 
квартал 2008 года); 

ә Соге 2 Рио Т8100 — 2,10 ГГц (3 Мб 12, 800 МГц ЕЅВ) (7 января 
2008 года); 

• Соге 2 Рио Т8300 — 2,40 ГГц (3 Мб 12, 800 МГц ЕЅВ) (7 января 
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2008 года); 

• Соге 2 Рио Т9300 — 2,50 ГГц (6 Мб 12, 800 МГц ЕЅВ) (7 января 
2008 года); 

ә Соге 2 Рио Т9500 — 2,60 ГГц (6 Мб 12, 800 МГц ЕЅВ) (7 января 
2008 года); 

• Соге 2 Ехтете Х9000 — 2,80 ГГц (6 Мб, 800 МГц ЕЅВ) (7 января 
2008 года). 


Репішт Ооа] Соге 

Мегот — 65-нм технологический процесс. 
Мобильный микропроцессор. 
Представлен 27 июля 2006 года. 


Реализованы те же технологии, что и у микропроцессора Сотое, Сокет: 
Ѕоскег 479, 


Варианты; 
• Гие] Репцит Т2310 — 1,46 ГГц (1 МбТ.2, 533 МГц ЕЅВ); 
*_ Гие] Репцит Т2330 — 1,60 ГГц (1 МбТ.2, 533 МГц ЕЅВ); 
• ше] Репішт Т2370 — 1,73 ГГц (1 Мб 12, 533 МГц Е5$В); 
• ше] Репішт Т2390 — 1,86 ГГц (1 Мб 1.2, 533 МГц ЕВ). 


АЛПепіаје — 65-нм технологический процесс, 
Микропроцессор для настольных систем. 
Представлен 21 января 2007 года. 
Поддержка инструкций 51МР: 55Е3, 
Количество транзисторов: 167 миллионов. 


Реализованы технологии: 


® ГаСтапае Тесһпојору — аппаратная технология защиты 
информации; 
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ә Ехесше Ока е Ві; 
* ЕІЅТ (Епһапсеа Пие] Ѕрееа Ѕїер Тесһпю!ору); 


® 1АМТ2 (ше Асбуе Мапаретепі Тесһпојору) — удаленное 
управление компьютерами; 
* 1СА775, 
Варианты; 

• ше] Репішт Е2140 — 1,60 ГГц (1 МбТ, 800 МГц ЕЅВ); 

• ие] Репнит Е2160 — 1,80 ГГц (1 М6б12, 800 МГц ЕЗВ); 

® ие] Репнит Е? 180 — 2,00 ГГц (1 МбТ., 800 МГц ЕЗВ); 

• ше] Репішт Е2200 — 2,20 ГГц (1 МбІ2, 800 МГц ЕЅВ); 

• ие] Репішп Е2220 — 2,40 ГГц (1 МбІ2, 800 МГц ЕЗВ). 


УЮШае — 45-нм технологический процесс. 
Микропроцессор для настольных систем. 

Представлен 31 августа 2008 года: Репішт Риа!-Соге Е5200. 
Количество транзисторов: 228 миллионов. 

Сокет: .СА775. 


Варианты; 


• ше] Репішт Е5200 — 2,50 ГГц (2 Мб 12, 800 МГц ЕЅВ); 

* ие! Репішт Е5300 — 2,60 ГГц (2 Мб 12, 800 МГц ЕЅВ) (в 
некоторых модификациях реализована поддержка Іме] 
уиайгайоп Тесһпоіоду); 

• Іле] Репішт Е5400 — 2,70 ГГц (2 Мб 12, 800 МГц ЕЅВ) (в 
некоторых модификациях реализована поддержка Іме] 
Учиайгайоп Тесһпоіоду). 


Мон аје-2М — 45-нм технологический процесс, 
Микропроцессор для настольных систем. 


Основное отличие от серии Репішт Е5000 — поддержка технологии 
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аппаратной виртуализации Ние] Уігішаїғайоп Тесһпоіоду. 


Частота системной шины (ЕВ): 1066 МГц. 


Варианты; 


• ше Репнит Е6300 — 2,80 ГГц (2 Мб 12, 1066 МГц ЕЅВ) (май 
2009); 

* ше! Репішт Е6500 — 2,93 ГГц (2 Мб 12, 1066 МГц ЕЅВ) (август 
2009). 


Сеегоп Оша] Соге 

АШепдае — 65-нм технологический процесс, 
Микропроцессор для настольных систем. 

Представлен 20 января 2008 г — версия с 512 Кб 1.2-кэша. 
Поддержка инструкций 51МР: 55Е3. 

Количество транзисторов: 167 миллионов. 


Реализованы технологии: 


® ГаСтапае Тесһпојору — аппаратная технология защиты 
информации; 

• Ехесше Рае Ві; 

® ЕІЅТ (Епһапсеа Пие] Ѕрееа $їер Тесһю!ору); 

* 1АМТ2 (ше Асбуе Мапаретепі Тесһпојору) — удаленное 
управление компьютерами. 


Сокет: 1СА775 


Варианты; 
• ше] Сеегоп Е1200 — 1,60 ГГц (512 Кб 1.2, 800 МГц ЕВ); 
» ие] Сеегоп Е1400 — 2,00 ГГц (512 Кб 1.2, 800 МГц ЕВ); 
• ше] Сеегоп Е1500 — 2,20 ГГц (512 Кб 1.2, 800 МГц ЕВ); 
• ие] Сеегоп Е1600 — 2,40 ГГц (512 Кб 1.2, 800 МГц ЕЗВ). 
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УЮШае — 45-нм технологический процесс. 
Микропроцессор для настольных систем. 


Представлен в Ш квартале 2009 года. 


В целом процессор аналогичен процессорам Репиши Оша] Соге серии 


Е5000. 


Основные особенности: 


• размер кэша 12 — 1 Мб; 
• поддержка технологии аппаратной виртуализации 
Уииайгавюп Тесһпо!о ву. 


Варианты; 


• ие] Сеегоп ЕЗ200 — 2,40 ГГц (1 Мб 1.2, 800 МГц ЕЅВ); 
• ие] Сеегоп ЕЗЗОО — 2,50 ГГц (1 Мб 1.2, 800 МГц ЕЅВ). 


Сеегоп (микроархитектура Соге) 

Сопгое-Г, — 65-нм технологический процесс. 
Одноядерный процессор. 

Представлен 27 июля 2006 года. 

Количество транзисторов: 105 миллионов. 
Поддержка инструкций 8/МР: 55Е3, 


Реализованы технологии: 


• Ехесше Ока е Ві; 
® частота шины (ЕВ): 800 МГц; 
® размер кэша Г.2: 512 Кб. 


Сокет: [СА775. 


ие] 
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Варианты; 


ие] Сејегоп 420 — 1,60 ГГц; 

ие] Сејегоп 430 — 1,80 ГГц; 

ие] Сејегоп 440 — 2,00 ГГц; 

ие] Сејегоп 450 — 2,20 ГГц; 

ие] Сеегов 220 — 1,2 ГГц (533 МГц ЕЗВ, ТОР 19 Вт) — 
микропроцессор для материнских плат МтЫТХ, впаивался 
непосредственно в плату. 


Сотпгое- СІ, — 65-нм технологический процесс. 
Одноядерный микропроцессор для рабочих станций. 
Сокет: [СА771. 


Варианты; 
• ше] Сеегоп 445 — 1,87 ГГц (512 Кб 1.2, 1066 МГц ЕЅВ)[6] 


Сеегоп М (микроархнтектура Соге) 

Мегот-Г, — 65-нм технологический процесс. 
Размер кэша 1.1: 64 Кб. 

Размер кэша Г.2; 1 Мб, 

Поддержка инструкций 5$1МР: 55Е3, 

Ехесше ОбаЪе Ві. 

Частота шины (Е5$В); 533 МГц. 


Нет поддержки ЕІЅТ (ЕпБапсей Пие] Ѕреей Ѕіер Тесһпојору), вследствие 
этого не может быть частью платформы Сепітіпо. Варианты; 


Варианты; 


• ше] Сејегоп М 520 — 1,60 ГГц; 
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ә ша Сејегоп М ОУ 523 — 933 МГц (модель с низким 
энергопотреблением); 
ө ше Сејегоп М 530 — 1,73 ГГц; 
® ше Сејегоп М 540 — 1,86 ГГц; 
• ше Сејегоп М 550 — 2,00 ГГц. 


64-битные процессоры; ЕМ64Т — Микроархитектура Меһајет 

ие! Соге 5 

Туппве4 — 45-нм технологический процесс. 

Микропроцессор для настольных систем, позиционируется как 
семейство процессоров среднего уровня цены и производительности. 
Представлен 8 сентября 2009 года. 

Представлен 8 сентября 2009 года. 

Поддержка инструкций 51МР: $5Е, 55Е2, 55Е3, 555Е3, 5$Е4.1, $5Е4.2. 


Реализованы технологии: 


• ше Умиайайоп Тесһпоіоду; 
® Ехесше Оба Бе Ви; 
• ЕІЅТ (Епһапсеа ие] Ѕрееа $1ер Тесһпоіору). 


Сокет: .СА1156. 


Варианты; 

® ие] Соге 15 750 — 2.66 ГГц (4х256 Кб 1.2, 8 Мб13). 
ие] Соге 17 
Вюотйе!4 — 45-нм технологический процесс, 


Микропроцессор для настольных систем со встроенным трехканальным 
контроллером РРЕЗ-памяти, 


Представлен 16 ноября 2008 года, 
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Поддержка инструкций 51МР: 55Е3, $5$Е3, 55Е4.1, 55Е4.2. 
Количество транзисторов: 731 млн. 


Реализованы технологии: 


• Нурег-Тһгеайіпд; 


• ОРІ; 

® ше Утиайғгайоп Тесһпоіоду — поддержка нескольких 
операционных систем на одном компьютере; 

• ТаСтапае Тесһпојору — аппаратная технология защиты 
информации; 


® Ехесше Ока е Ві; 

* ЕТ (Епһапсеа Пие] Ѕрееа 5їер Тесһпоіору); 

Ф 1АМТ2 (ше Асіуе Мапаретепі Тесһпоіору) — удаленное 
управление компьютерами. 


Сокет: .СА1366. 


Варианты; 


® Соге 17 975 Ехітете Едйіоп — 3,33 ГГц (4х256 Кб 1.2, 8 Мб 1.3) — 
со 2 квартала 2009 года; 

® Соге 17 965 Ехітете Едйюп — 3,2 ГГц (4х256 Кб 1.2, 8 Мб 13) — 
снимается с производства; 

® Соге Й 950 — 3,06 ГГц (4х256 Кб 12, 8 Мб 1.3) — со 2 квартала 
2009 года; 

ө Соге 17 940 — 2,93 ГГц (4х256 Кб 12, 8 Мб 13) — снимается с 
производства; 

• Соге 17 920 — 2,66 ГГц (4х256 Кб 12, 8 Мб 13), 


Туппйе4 — 45-нм технологический процесс. 
Микропроцессор для настольных систем. 

Представлен 8 сентября 2009 года. 

Поддержка инструкций 51МР: 55Е3, 555Е3, 55Е4.1, 55Е4.2. 


Реализованы технологии: 
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» Нурег-Тһгеайіпд; 
• ша Угшмайгайоп Тесһпоіоду; 
ө Ехесше Ока е Ві; 
• ЕТ (Епһапсеа Пие] Ѕрееа Ѕїер Тесһпоіору). 


Сокет: .СА1156. 
Варианты; 


• Соге 17 860 — 2,80 ГГц (4х256 КбІ2,8 М613); 
• Соге 17 870 — 2,93 ГГц (4х256 КбІ2, 8 М613). 


ие! Соге 17 


Архитектура Мераета была разрабатана как архитектура, которая может 
адаптироваться для нужд всех трех основных рынков: мобильного, 


Меһајет изначально была разработана модульной — набор базовых 


"кирпичей", которые можно собирать, чтобы создавать разные версии 
архитектуры (рис. 13.1). 


Процессорнов! Продвесорное || Процессорное Процвоборнов |Проесоориое! 
ядро А. ядро ІА ядро 1А. ядро А. поро А 
Процеоборнох | Процосоориоеј Процесоорное |Процессорное 
Ь ялро А яаро!А япро А. ядро ІА 
5 | кўз Процесоорное |Процессорное 
н), А ядро ІА ядро А 
Интвгрираванный: ЕЗ Процвосорное |Процрссорное 
Ш тит. у Заро А, поа 
Интегрированный аш: 
хонтраллай 
Интагрироавиный 
2 йр 
Базовые блоки 4 пдерная 449 г 
микроархитектуры 
Меһаіет конфигурация 8-ядернвя конфигурация 


Рис. 13.1. Модульный подход к реализации архитектуры М№еһајет 
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Базовая архитектура следующая: четырехьядерный процессор, 
использующий три уровня кэш-памяти, встроенный контроллер памяти, 
а также высокопроизводительная система интерфейсов "гочка-точка" 
для связи с периферией и другими процессорами в многопроцессорной 
конфигурации. 


Рис. 13.2. Кристалл процессора Мерает 


Были добавлены новые инструкции $5Е. Архитектура поддерживает 
набор $5Е 4.2, 


Конвейер (рис. 13.3) — часть, которая отвечает за считывание 
инструкций из памяти и подготовку их для выполнения, 
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Выборка инструкций и Е Кэш инструкций 
предварительное декодирование В 32 Кбайт 
Очередь инструкций 
І тів Е 
2-0 урояня Кэш 2 =» 

Декодар инструкций Бэй 

п 
ореименование Вы деление. ых 

І 32 Кбайт 

Первупорядочив яние 
ртів 


Унифицированный блок распределения инструкций 


Исполнительный блок 


Рис. 13.3. Конвейер Мерает 


В конвейере Мерает, так же как и в Сотое, присутствуют четыре блока 
декодирования (рис. 13.4) — три простых и один сложный. 
Поддерживается функция слияния макроопераций (тасғо-орѕ јиѕіоп), 
обеспечивается теоретическая максимальная пропускная способность 
4+1 инструкций х86 за такт, 


Были оптимизированы блоки декодирования инструкций и добавлена 
поддержка слияния макроопераций (тасго-орѕ јиѕзіоп) для 64-битного 
режима. Архитектура Мерает поддерживает большое число вариантов 
слияния макроопераций (что в итоге даст более частое использование 
этой возможности по сравнению с архитектурой Сопгое), 


255 


Калачев А.В 'Многоядерные процессоры 


Выборка инструкций и Каця инструкций 
предварительное декодирование тв 32 Кбайт 
Очередь инструкций 
Декодер инструкций 


Рис. 13.4. Блок декодирования команд 


При определении процессором цикла отключаются некоторые части 
конвейера. Поскольку цикл подразумевает выполнение одинаковых 
инструкций указанное число раз, отключается выполнение 
предсказания ветвлений и выборки инструкции из кэша [1 при каждой 
итерации цикла. 


Детектор цикла Тоор 5ітеат Юеіесїог работает как небольшая кэшпамять, 
которая "замыкает" первые ступени конвейера в подобных ситуациях. 
При реализации этой техники получается двоякий прирост; снижается 
энергопотребление, поскольку процессор не работает над 
бесполезными задачами, а также увеличивается производительность 
путем снижения нагрузки на кэш инструкций [1 (рис. 13.5). 


Блок предсказания раа а Б = Декоирование | 


„детектор цикла іпђе! Солкё: 


|+ Детектор цикла „Декодирование 
эде овоа 


В случае обнаружения цикла, блоки временно. ючаются 
Датекгор цикла ілі Соге Містозисііесіге [Менагвгт} { 


инструкций) 


Рис. 13.5. Работа І.оор Ѕігеат Реіесіог в Мерает 


В архитектуре Мераеш Іле] улучшила функциональность Гоор Ѕітеат 
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Реесюг: буфер был увеличен — 28 инструкций; буфер находится после 
ступени декодирования (такое расположение позволило отключать 
большую часть конвейера). В Сопгое буфер располагался как раз за 
ступенью выборки инструкций (тзисйоп јеісћ). В детекторе цикла 
Тоор Ѕітеат Реесюг архитектуры М№ећһајет хранятся уже не инструкции 
х86-ой архитектуры, а микрооперации ядра. В данном отношении 
технология чем-то напоминает концепцию кэша с отслеживаниями 
(басе сасһе) у Репёит 4. В Меһајет можно найти ряд инноваций, 
появившихся с архитектурой МеВшзь, — если Репнит 4 использовал кэш 
с отслеживаниями эксклюзивно, поскольку он мог рассчитывать только 
на один декодер в случае промаха кэша, то Мерает задействует четыре 
декодера. Гоор Ѕігеат Реесюг можно назвать толью дополнительной 
оптимизацией для некоторых ситуаций [77]. 


Улучшен блок предсказания ветвлений. Эффективность алгоритмов 
предсказания ветвлений критична для архитектур, тде используется 
высокий уровень параллелизма инструкций. Ветвления разрывают 
параллелизм, поскольку необходимо ждать резульгат предыдущей 
инструкции, прежде чем продолжить выполнение потока инструкций. 
Предсказание ветвлений прогиозирует, будет взята ветвь или нет, и если 
ветвь будет взята, то быстро вычисляет дальнейший адрес для 
продолжения выполнения. Для этого применяется массив ветвлений, 
так называемый Вгапсһ Тагрег Вийег (ВТВ), который сохраняет 
результаты ветвлений по мере продолжения выполнения кода (взята 
ветвь или нет, а также целевой адрес). К массиву прилагается алгоритм 
определения результата следующего ветвления. 


В Мевает есть два уровня предсказаний, Первый уровень не изменился 
с архитектуры Сопгое, но был добавлен новый уровень с медленным 
доступом, который позволяет хранить большую историю ветвлений. 
Данная конфигурация улучшает предсказание ветвлений в некоторых 
приложениях, юторые используют массивные участки кода, таких как 
базы данных, — следствие ориентации Мерает на серверы 


Вешги 8іаск Вийег хранит адрес возврата функций, когда они 
вызываются. В некоторых случаях этот буфер может переполняться, что 
приводит к ошибочным предсказаниям, Чтобы ограничить такую 
возможность, АМР увеличила его размер до 24 записей, а в ше 
Мећһајет появилась система переименования для этого буфера. 
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В замыкающих ступенях применяются такие же исполнительные блоки, 
что и в самых последних процессорах Соте, но, опять же, инженеры 
вновь поработали над их более эффективным использованием (рис. 
13.6). Всеми исполнительными устройствами управляет единый блок 
распределения операций. Процессор способен выполнять до шести 
операций за цикл — 3 операции с памятью и 3 вычислительные, 


В архитертуре Мевает реализована поддержка многопоточности 
(Зитинапеоиз$ Миі-Тһеадіпр, $МТ). Поскольку физических ядер на 
кристалле четыре, некоторые версии Мерает, которые используют два 
ядра в одной "упаковке", смогут выполнять до 16 потоков одновременно. 


Целочислонные Целочивленные 
арифметико- Целочисленное Целочисленное арифметика- 
логические умножение умножение логические 
‘операции 88Е, 33Е 35Е операции 55Е, 
перестановка перестановка 


Рис. 13.6. Исполнительный блок конвейера 


Многопоточность реализована по технологии Нурег-Тһғеайіпд. 
Впервые она появилась в версии Могїмооа архитектуры Пе! М№еіВигѕі. 
Технология Нурег-Тһгеайіпд позволяет использовать параллелизм на 
уровне потоков, чтобы оптимизировать нагрузку исполнительных 
блоков ядра, в результате чего на уровне приложений одно физическое 
ядро превращается в два виртуальных [79]. 


Чтобы поддерживать параллельное выполнение потоков, некоторые 
ресурсы, такие как регистры, должны быть продублированы. Другие 
ресурсы можно совместно использовать двумя потоками, сюда входит 
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вся логика внеочередного выполнения (буфер изменения порядка 
инструкций (їпѕітисіюп геогаег Би[ег), исполнительные блоки и кэш). В 
процессоре доступно шесть исполнительных блоюв, которые способны 
одновременно выполнять три операции работы с памятью и три 
операции вычисления, Если устройство выполнения не сможет 
обеспечить параллелизм инструкций на должном уровне, с загрузкой 
всех блоков, в конвейере появляются так называемые "пузырьки" — 
холостые такты (рис. 13.7). 


ЅМТ пытается обеспечить параллелизм инструкций из двух потоков, а 
не из одного, с целью максимально уменьшить число жлостых тактов. 
Этот подход оказывается очень эффективным, когда два потока связаны 
с заданиями разной природы. С другой стороны, если два потока 
выполняют, например, интенсивные вычисления, это лишь увеличит 
нагрузку на те же самые вычислительные блоки, которые будут бороться 
между собой за доступ к кэшу. $МТ в данной ситуации может даже 
негативно повлиять на производительность, 


Без многапоточности 1С МНОГОПОТОЧНОСТЬЮ 


Время (циклы 
процессора} 


Каждый блок 
представляет 
исполнительный 


узел процессора 


Рис. 13.7. Параллельное выполнение инструкций 
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В большинстве ситуаций влияние МТ на производительность — 
положительное, а себестоимость технологии по ресурсам невысокая, 
что и объясняет ее возвращение, 


В случае Меһајет не все потоки создаются одинаковыми, Ш! 
обеспечивает способ точно определить топологию процессора (число 
физических и логических процессоров), а программисты могуг 
использовать механизм привязки ОС (а{пйу), позволяющий привязать 


поток к виртуальному ядру. 


Буфер изменения порядка команд (ғеогіег Бијег), отслеживающий все 
выполняемые инструкции, был увеличен с 96 записей у Соге 2 до 128 
записей у Меһаіет, Каждому потоку в $МТ доступно 64 записи. В случае 
выполнения одного потока обеспечивается доступ ко всем записям, то 
есть потенциально устранены специфические случаи, в которых 
МеваЮт дал бы меньшую производительность, чем предшественник, 


Станция резервации (тезегуайоп заНоп), которая отвечает за привязку 
инструкций к разным исполнительным блокам, тоже была увеличена с 
32 до 36 записей. Но, в отличие от буфера изменения порядка команд, 
здесь распределение уже динамическое, поэтому поток может 
использовать больше или меньше записей как функцию его 
потребностей, 


Два других буфера тоже были изменены: буфер загрузки (юа@ Бийег) и 
буфер хранения (5юге Бийег). Первый получил 48 записей против 32 у 
Сошое, а второй — 32 вместо 20. Здесь, опять же, распределение 
ресурсов между потоками статическое, 


Большинство новых инструкций 5$Е связаны с обработкой строк 
символов, и одно из возможных предназначений заключается в 
ускорении обработки ХМІ.-файлов 


Две инструкции нацелены на специфические приложения; команда 
РОРСМТ, появившаяся в Вагсејопа, используется для подсчета числа 
ненулевых битов в регистре. По информации Іп), эта инструкция очень 
полезна в приложениях распознавания голоса и секвенирования ДНК. 
Последняя инструкция, СЕСЗ2, используется для ускорения расчета кода 
обнаружения ошибок. 
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Для управления энергопотреблением применяется 
специализированный микроконтроллер Ромег Сопёо! Оп который 
постоянно отслеживает температуру и энергопотребление ядер, может 
полностью их отключать, если ядра не используются. Благодаря этой 
технологии энергопотребление неиспользуемых ядер близко к нулю, в 
то время как до Мераети были потери, связанные с токами утечки. 


ие! реализовала довольно оригинальную технологию под названием 
режима Тафо. Если процессор, например, работает ниже стандартного 
теплового пакета, режим Тифо повышает частоту используемых ядер, 
вместе с тем оставаясь в пределах теплового пакета (рис. 13.8), 


И ГОГ ПГ 
8 8 Н 
| Неактивные 
а == 


Рис, 13.8. Демонстрация работы режима Тафо Моде 


Как и в случае процессора Аїот, кэши 1.1 и 12 у Мевает используют по 
восемь транзисторов на ячейку; что снижает энергопотребление за счет 
несколько большей площади кристалла, 


Для связи ядер процессора применяется технология под названием 
ОшсКкРай ПиегсоппесЕ (ОРТ), которая представляет собой встроенный 
контроллер памяти и очень быструю последовательную шину ‘точка- 
точка". 


С технической точки зрения интерфейс ОРІ является двунаправленным 

с двумя 20-битными шинами, по одной на каждое направление, из 

которых 16 зарезервировано под данные, а оставшиеся четыре — под 

функции исправления ошибок или служебную информацию протокола. 
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Это дает максимальную скорость 6,4 СТА (млрд передач в секунду) или 
полезную пропускную способность 12,8 Гбайт/с, как на чтение, так и на 
передачу. Для сравнения, ЕЅВ на самых современных процессорах Ние] 
работает с максимальной тактовой частотой 400 МГц, при этом для 
передачи адресов требуется два такта (200 МТ), а данные передаются в 
режиме ОРЕ, с пропускной способностью 1,6 СТ/ѕ. При 64-битной 
ширине ҒЅВ дает суммарную пропускную способность 12,8 Гбайт/с, но 
она доступна только для чтения или записи. 


Поэтому интерфейс ОРГ дает пропускную способность до двух раз 
выше, если запись и чтение сбалансированы должным образом. В 
теоретической ситуации, когда есть только оперкции чтения или записи, 
пропускная способность будет идентична Р$В. Но следует помнить, что 
шина Р5В использовалась как для доступа к памяти, так и для передачи 
всех данных на периферию или между процессорами. В случае Меһајет 
интерфейс ОРІ исключительно предназначается для передачи данных на 
периферию, а за работу с памятью отвечает интегрированный в 
процессор контроллер. Связь между несколькнми СРО в многосокетной 
конфигуркции осуществляется еще одним интерфейсом ОРІ. Даже в 
самой тяжелой ситуации ОРІ должен показать лучшую 
производительность, чем РЅВ, 


Число доступных интерфейсов ОРІ меняется в зависимости от 
ориентации на тот или иной сегмент рынка — от одного интерфейса 
для связи с чипсетом в односокетных конфигурациях до целых четырех 
для четы-рехсокетных серверов. Это позволяет создавать полносвязные 
четырех-процессорные системы, когда каждый процессор может 
получать доступ к любой области памяти через один хоп ОРІ, поскольку 
каждый процессор напрямую подключен к трем остальным (рис, 13.9), 


Топовая конфигурация Пи включает три контроллера памяти РРЕЗ. 
Если установить память ОРОКЗ-1333, которую Мерает тоже будет 
поддерживать, пропускная способность возрастет до 32 Гбайт/с в 
некоторых конфигурациях. Встроенный контроллер памяти существенно 
снижает задержки доступа к памяти. Раньше при добавлении СРО 
доступная пропускная способность оставалась прежней, однако теперь 
каждый новый дополнительный процессор увеличивает пропускную 
способность, поскольку каждый СРО обладает собственной памятью, 
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Перед нами конфигурация М№оп Олйоги Метогу Ассеѕѕ (МИОМА), то есть 
доступ к памяти будет обходиться по тем или иным накладным 
расценкам, в зависимости от того, где данные располагаются в памяти. 
Доступ к локальной памяти будет производиться с самыми низкнми 
задержками и самой высокой пропускной способностью, поскольку 
доступ к удаленной памяти происходит через промежуточный 
интерфейс ОРІ, снижающий производительность (рис. 13.10), 


Динамическая Динамическая 
память память 
амическая а . Динамическая 

До С) пдд пена нин 


Рис. 13.9. Пример построения системы на нескольких процессорах 


Дрступ клокальной памяти 


„Доступ кудаленной памяти 


Рис. 13.10. Варианты доступа к памяти 


Влияние на производительность предсказать сложно, поскольку все 
зависит от приложения и операционной системы. Пие! утверждает, что 
падение производительности при удаленном доступе по задержкам 
составляет около 70%, а пропускная способность снижается в два раза 
по сравнению с локальным доступом. По информации Ши, даже при 
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удаленном доступе через интерфейс ОРІ задержкн будут ниже, чем на 
предыдущих поколениях процессоров, где контроллер находился на 
северном мосту Однако это касается только серверных приложений, 
которые уже довольно долгое время разрабатываются с учетом 
конфигуркций МОМА, 


В М№еһајет каждое ядро имеет собственный кэш Г.2. Поскольку он 
выделен на каждое ядро и относительно мал (256 Кбайт), получилось 
обеспечить кэш очень высокой производительностью; в частности, 
задержкн существенно улучшились по сравнению с Репгуп — с 15 тактов 
до примерно 10 тактов. 


Присутствует кэш-память третьего уровня (8 Мбайт), отвечающая за 
связь между ядрами. Если ядро попытается получить доступ к данным и 
они отсутствуют в кэше 13, то нет необходимости искать данные в 
собственных кэшах других ядер — там их нет. Напротив, если данные 
присутствуют, четыре бита, связанные с каждой строчкой кэш-памяти 
(один бит на ядро), показывают, могуг ли данные потенциально 
присутствовать (потенциально, но без гарантии) в нижнем кэше другого 
ядра, и если да, то в каком (рис, 13.11). 


Кэш данных Каш данных Кэш данных Кэш данных 
первого уровня 11-0 | первого уровня (1 -О || первого уровня 1. -0 |пареого уровня 21-0 
32 байг 32 Кбайт 32 Кбайт 32 Кбайт 
эш команд, Каш команд Кэш команд. Кэш команд, 
первого уровня 7-1 | первого уровня 1.1-| || первого уровня 1.1- || первого уровня 3-1 
З2кбайг 32 Кбайт 32 Кбайт 32 Кбайт 
Кэш второго. Каш второга Кэш втерого Кэш второго 
уровня [2 256 Кбайт | ураеня С2 256 кбайт || уровня 2 256 Кбайт || уровня 12 266 Кбайт 


Рис. 13.11. Структура кэша в Ние] Соге {7 


Эта техника весьма эффективна для обеспечения когерентности 
персональных кэшей каждого ядра, поскольку она уменьшает 
потребность в обмене информацией между ядрами. Кэш третьего 
уровня работает на других частотах по сравнению с самим чипом. 
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Следовательно, задержка доступа на данном уровне может меняться. 
Здесь она составляет около 40 тактов. 


Пропускная способность кэша инструкций [1 составляет 16 байт. 
Задержка кэша данных достигает четырех тактов, облегчая работу на 
высокнх тактовых частотах. Было увеличено число промахов кэша 
данных 11, которые архитектура может обрабатывать параллельно. 


Как правило, процессоры работают не с физическими адресами памяти, 
а с виртуальными. Такой подход позволяет выделять программе больше 
памяти, чем есть в компьютере, сохраняя только необходимые на 
данный момент данные в физической памяти, а все остальное — на 
жестком диске, При каждом доступе к памяти виртуальный адрес нужно 
переводить в физический адрес, и для сохранения соответствия 
приходится использовать огромную таблицу; 


Для ускорения работы с виртуальной памятью применяется принцип 
физической адресации с применением небольшой кэш-памяти в 
процессоре, хранящей соответствие для нескольких недавно 
запрошенных адресов. Кэш-память называется Тгапѕ]абоп ГооКкаѕііе 
Вийег (ТЕВ), 


В М№еһајет используется двухуровневый ТІВ; кэш ТГВ первого уровня, 
разделенный для данных и инструкций. Кэш ТІВ [1 для данных может 
хранить 64 записи для маленьких страниц (4 Хбайт) или 32 записи для 
больших страниц (2 / 4 Мбайт), а кэш ТІВ 11 для инструкций может 
хранить 128 записей для маленькнх страниц (как и в случае Соге2), а 
также семь для крупных, Второй уровень состоит из унифицированного 
кэша, который может хранить до 512 записей и работает только с 
маленькими страницами. Цель такого улучшения заключается в 
увеличении производительности приложений, которые работают с 
большими массивами данных, 


Кэш 11 ТІВ для данных и ТЕВ 12 динамическн распределяются между 
двумя потоками. Напротив, кэш Г1 ТІВ для инструкций статически 
распределяется для малых страниц, а выделенный для больших страниц 
полностью копируется —— это вполне понятно, учитывая его малый 
размер (семь записей на поток), 


В архитектуре Соге доступ к памяти приводил к ряду ограничений по 
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производительности. Процессор был оптимизирован для доступа к 
адресам памяти, выровненным по 64-байтным границам, то есть по 
размеру одной строчки кэша, Для невыровненных данных был не только 
медленный доступ, но и выполнение невыровненных инструкций 
считывания или записи было более накладным, чем в случае 
выровненных инструкций, независимо от реального выравнивания 
данных памяти. Инструкции приводили к генеркции нескольких 
микроопераций на декодерах, что снижало пропускную способность с 
данными типами инструкций. В итоге компиляторы избегали 
генерировать инструкции подобного типа, подставляя вместо них 
последовательность инструкций, которые менее накладны, 


Так, чтение из памяти, при котором происходил перехлест двух строчек 
кэша, замедлялось примерно на 12 тактов, по сравнению с 10 тактами 
для записи. Инженеры Пие] оптимизировали подобный тип обращений, 
чтобы он выполнялся быстрее. Теперь нет падения производительности 
при использовании невыровненных инструкций чтения/записи в 
случаях, когда данные выровнены в памяти, В других случаях Пие| тоже 
оптимизировала доступ, снизив падение производительности по 
сравнению с архитектурой Соге, 


В архитектуре Сошгое Пи особенно гордилась аппаратными блоками 
предсказания — механизмом, который следит за характером доступа к 
памяти и пытается предсказать, какие данные потребуются через 
несколько тактов, Цель заключается в том, чтобы упреждающим образом 
загрузить данные в кэш, тде они будут располагаться ближе к 
процессору и вместе с тем максимально использовать доступную 
пропускную способность тогда, когда процессору она не нужна. 


Данная технология дает замечательные резульгаты с большинством 
настольных приложений, но в серверной среде она часто приводила к 
потере производительности. Есть несколько причин подобной 
неэффективности, Во-первых, доступы к памяти часто сложнее 
предсказать в серверных приложениях, Доступ к базе данных, 
например, отнюдь не линейный — если в памяти запрашивается какой- 
либо элемент данных, то это не значит, что следующим будет соседний 
элемент. Это ограничивает эффективность блока предварительной 
выборкн. Но основной проблемой была пропускная способность 
памяти в многосокетных конфигурациях, Как мы уже говорили раньше, 


266 


Калачев А.В Многоядерные процессоры 
она уже была "узким местом" для нескольких процессоров, но помимо 
этого блокн предварительной выборки приводили к дополнительной 
нагрузке на этом уровне. Если микропроцессор не выполняет доступ к 
памяти, то включались блокн предварительной выборкн, пытаясь 
использовать пропускную способность, по их предположению, 
свободную. Однако блокн не могли знать, нужна ли эта пропускная 
способность дру гому процессору Это означало, что блоки 
предварительной выборки могли "отбирать" у процессора пропускную 
способность, которая и так была "узким местом" в таких конфигурациях. 


Краткие итоги 


Базовая архитектура М№еһајег; четырехьядерный процессор, три уровня 
кэш-памяти, встроенные контроллеры памяти РРЕЗ, 
высокопроизводительный системный интерфейс ОРІ для связи с 
перифериейй и другими процессорами в многопроцессорной 
конфигурации, двухуровневый ТІВ. 


Два уровня предсказания ветвлений, поддержка многопоточности — 
Нурег-Тһеайіпд, адаптивная система управления 
энергопотреблением. 


М№еһајет представляет собой мощное решение как для персональных 
компьютеров, так и для серверных и многопроцессорных систем, 


Контрольные вопросы 


1. Дайте характеристику основных идеи архитектуры Меваегт, 

2. Как реализован конвейер в процессорах Мећајепі? 

3. Как работает блок предсказания ветвлений в процессорах 
Меһајет? 

4. Каким образом реализовано управление энергопотреблением в 
процессорах Меһајет? 

5, Как работает интерфейс ОРІ? Характеристикн интерфейса ОРІ 

6. Как организована подсистема памяти в Мерает? 


Упражнения 
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1. 


Проанализируйте эффективность передачи данных между 
отдельными ядрами процессоров АМР Орегоп и Іліе] Мерает, 
Оцените производителность подсистем памяти процессоров АМР 
Орхегоп и Пие! Меһајет, 

Проследите динамику развития процессоров Ш! по следующим 
показателям — количество транзисторов, технологический 
процесс, пиковая производительность, потребляемая мощность, 
количество аппаратно поддерживаемых потоков на одно ядро, 
количество ядер. 

Сравните относительные показатели производительности 
процессоров АМР, ше и ЅРАКС в разрезах; пиковая 
производительностьпотребляемая мощность и технологический 
процесс/потребляемая мощность. Дайте характеристику 
полученным зависимостям, 
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Состояние отечественных разработок в области 
высокопроизводительных вычислений 


Лекция посвящена обзору состояния работ в области многоядерных 
процессоров, выполняемых в России. 


Рассматривая положение и перспективы России в данной области, 
можно привести выдержку из доклада заместителя руководителя 
Федерального агентства по промышленности РФ Ю.И. Борисова на 
конференции "Перспективы развития высокопроизводительных 
архитектур. История, современность и будущее отечественного 
компьютеростроения" [82]: 


"Страна в данный момент не имеет средств для формирования "с 
чистого листа" новой инфраструктуры отрасли, Разработки 
компьютерной техники, связанные с масштабными программами 
обеспечения национальной безопасности, должны при всемерной 
поддержке государства вестись в действующей системе проектных 
центров. Соответственно, необходимо выделить зоны ответственности 
этой системы, в которых достигиутые к настоящему времени результаты 
дают основания рассчитывать на дальнейший прогресс. 


1. Важнейшим направлением работ является снабжение 
Вооруженных сил компьютерной техникой для применения в 
мобильных системах управления и обработки информкции, где 
особое значение имеют встроенные и носимые исполнения. На 
данный момент задача решается путем разделения труда, 
ориентации определенных российских проектных центров на 
выполнение работы, наиболее соответствующей их многолетнему 
опыту Следуя этому принципу, заслуженные специалисты, 
традиционно связанные с обеспечением информационной 
безопасности, успешио совершенствуют отечественную 
аппаратно-программную платформу на базе микропроцессоров 
российского производства с топологическими нормами 350 нм, В 
то же время разработчики, ориентированные на высокие 
показатели производительности, реализуют свои проекты, 
используя ресурсы зарубежных компаний, производящих 
микропроцессоры. Это хороший пример надежного 


технологического _ партнерства, на перспективность которого 
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указывается и в федеральной целевой программе. Нашими 
специалистами разра ботана серия ЗРАВС-совместимых 
микропроцессоров, снабженных эффективным программным 
обеспечением, выпущена заводская документация и обеспечена 
контрактная поставка микропроцессоров с топологическнми 
нормами 130нм. На их базе отечественная промышленность 
производит вычислительные комплексы высокого 
быстродействия, которыми оснащаются Вооруженные силы. 
Интенсивно ведется работа по дальнейшему увеличению 
производительности за счет перехода на передовые 
топологическне нормы, созданию многоядерньх структур и 
систем на кристалле, Очень важно, что при вводе в эксплуатацию 
современных фабрик по производству микропроцессоров 
выполнение этих проектов будет полностью сосредоточено в 
нашей стране, 


Рассматриваемая область проектирования включает и создание 
специализированных процессоров, предназначенных для 
обработки интенсивных потоков данных небольшой разрядности 
в реальном масштабе времени. Они необходимы в ряде 
применений, среди которых можно выделить радиолокационные 
и мультимедийные задачи, Здесь налицо перспектива 
сотрудничества наших проектных центров для создания 
высокопроизводительных микропроцессорных структур, 
интегрирующих специализированные процессоры сигнальной 
обработки с универсальными процессорными ядрами 


Традиционно велика роль высокопроизводительных 
информационно-вычислительных и управляющих систем, 
используемых при решении сложных вычислительных задач в 
сфере военных и общих применений. Безусловным достижением 
отрасли в этом направлении является создание микропроцессора 
"Эльбрус" с топологическнми нормами 130 нм, разработанного 
под руководством Б.А. Бабаяна, и двухпроцессорного 
вычислительного комплекса "Эльбрус-ЗМ1" на его основе, 


При выполнении проекта создан первый 
высокопроизводительный универсальный микропроцессор с 
отечественной архитектурой и оптимизирующий компилятор, 
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обеспечивающие автоматическое распараллеливание программ и 
рекордное для микропроцессоров данной категории отношение 
производительности к мощности. С сохранением лицензионной 
независимости достигнута эффективная программная 
совместимость с платформой Ілме] х86, которая позволяет 
выполнять произвольные коды для архитектуры Пе] включая 
коды операционной системы, Аппаратными и программными 
средствами поддерживаются защищенные вычисления и 
объектно-ориентированное программирование, что позволяет 
использовать вычислительный комплекс в масштабных проектах с 
участием больших коллективов разработчиков и сжатыми сроками 
создания надежного программного обеспечения 


Очень важно, что этот проект стал отправной точкой для 
восстановления отечественной школы проектирования 
универсальных высокопроизводительных вычислительных 
средств. В настоящее время поставлена и планируется работа по 
усовершенствованию конструктивно-технологических параметров 
микропроцессора "Эльбрус", созданию на его основе 
многоядерной системы на кристалле, разработке 
многопроцессорных вычислительных комплексов [83]. 
Интенсивно развивается программная составляющая проекта. 


Следует отметить явную активность в решении проблем высшей 
сложности, которые требуют применения суперкомпьютеров. 


Сейчас в отрасли ведутся два комплекса работ, в конечном счете 
ориентированных на создание отечественного суперкомпьютера 
стратегического назначения: 


© дальнейшее наращивание производительности 
микропроцессоров, вычислительных комплексов и 
кластерных систем в рамках отечественной школы 
проектирования; 

ә поиск принципиально новых решений в области 
электронно-компонентной базы, архнтектуры и 
программного обеспечения, позволяющих достичь 


предельно высокой скорости вычислений, 


Реализация первого варианта предполагается в развитии работ, 
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связанных с созданием микропроцессоров и вычислительных 
систем серии "Эльбрус". Несмотря на большую сложность научно- 
технических проблем, определяющим фактором здесь является 
выделение ресурсов, достаточных для завершения перспективной 
ОКР. 


В рамках комплекса исследований, ведущихся по второму 
варианту, на данный момент получены следующие результаты: 


© систематизированы признаки суперкомпьютерных 
технологий, предлагаемых или используемых за рубежом 
для реализации предельных показателей 
производительности — в дальнейшем предстоит найти 


оптимальное сочетание этих признаков; 

© рассматривается возможное решение в виде систем с 
большим (порядка десятков и сотен тысяч) простых 
отечественных процессоров, связанных в сеть; 

о выдвигается концепция программирования архнтектуры 
многопроцессорных вычислительных комплексов на базе 
ПЛИС соответственно классам решаемых задач; 

о сформулированы новые архитектурные принципы 
реализации не фон-неймановской модели, позволяющие 
обобщить требования к структуре и механизмам 
перспективного многоядерного процессора на кристалле". 


Если рассматривать тенденции отечественных процессоров, можно 
сказать следующее. В основном идет уклон на асимметричные 
процессорные системы — как правило, это ядро процессора общего 
назначения (на базе ААМ- или МІР5-ядер) и специализированное ядро 
цифрового сигнального процессора Позиционируются такие 
процессоры на рынке как процессоры для мультимедийных 
приложений, навигационные процессоры. О тенденциях в процессорах 
общего назначения говорить сложно. Работы над процессорами на базе 
архнтектуры ОрепбРАВС или не афишируются, или не имеют сколько- 
нибудь заметных результатов примерно с 2004-2005 годов. 


Микропроцессор 1891ВМЗ 


Микросхема 1891ВМЗ [84, 85] представляет собой двухпроцессорную 
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систему на кристалле с общим для обоих процессоров внутренним 
кэшем второго уровня, контроллером оперативной памяти и набором 
периферийных контроллеров для доступа к внутренним узлам 
компьютера и внешним каналам и линиям связи, 


Структурная схема 1891ВМЗ, представленная нарис, 14.1, содержит: 


• два универсальных процессора СРОО и СРО1 с тактовой частотой 
500 МГц; 
обшую кэш-память второго уровня 1.2 сасйе объемом 512 Кбайт; 
системный коммутатор $СОМ; 
контроллер МС оперативной памяти ЮЕ ЅРВАМ; 
контроллер МР! внешней периферийной шины РСІ; 
контроллер внешней периферийной шины $С5$1 для доступа к 
магиитным и оптическим дискам; 
контроллер канала Ећетпеѓ 10/100; 
• контроллер канала Р5/2 для связи с клавиатурой и графическим 
манипулятором; 
контроллер последовательных каналов 25-232; 
контроллер каналов удаленного доступа КОМА с выходом на 


ГУР ШК; 
*® контроллер сопряжения системного и периферийного 
интерфейсов М5/; 


• контроллер внутренней периферийной шины ЕВиѕ для доступа к 
ПЗУ, таймерам, системе прерываний и ГМД, 
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Пронессорнов Контроллер |=" 
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контроллер 


Контроллер внешней в 
нутренней 
перифаралеой шиа || периферийной излны 
ЕВиѕ (ЅЕС) 


г У 


Рис. 14.1. Структурная схема системы на кристалле 1891ВМЗ 


Структура 1891ВМЗ представляет собой почти полную схему 
современной ЭВМ (без оперативной памяти и внешиих устройств). 
Номенклатура контроллеров была выбрана исходя из стремления 
реализовать в первую очередь контроллеры с высокой пропускиой 
способностью, контроллеры для внутренних узлов ЭВМ и 
ограничивалась лимитом внешних выводов микросхемы, 


Основные технические характеристики системы на кристалле 1891ВМЗ 


сведены в (таблица 14.1) 


Таблица 14.1. Тестовая таблица 
Наименование 
параметра 


Значение 


Тип процессора — МЦСТ^500 Количество 
Процессор 
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процессоров — 2 Тактовая частота — 500 МГц 
Производительность 1000 МІР5/400 Мфлопс 
Внутренняя кэш- Кэш первого уровня: команд — 16 Кбайт данных 
память — 32 Кбайт2) Кэшвторого уровня — 512 Кбайт 
Оперативная память Емкость до 2 Гбайт Пропускиая способность 
канала — 2,664 Гбайт/с 
Периферийная шина р 
РСІ Пропускная способность шины — 264 Мбайт/с 
Количество каналов — 2 Тип канала — 


Канал удаленного а 
дуплексный Пропускиая способность канала в 


доступа КРМА одном направлении — 667 Мбайт/с 
Ећегпе( 100 Пропускиая способность канала — 100 Мбит/с 
5С81-2 Пропускная способность шины — 10 Мбайт/с 
95-232 Количество каналов — 2 Пропускная способность 
канала — 115 Кбит/с 
Потребляемая 5 
мощность, Вт 
Количество 
транзисторов,млн 45 
шт, 
Напряжение 
питания, В 1,0 для внутренних схем 2,5 и 3,3 для периферии 
Корпус 900 ЕСВСА 
Технология КМОП 0,13 мкм, 8 слоев металла 
Площадь кристалла, 
2 9.9 
мм 


Микросхемы сигнальных процессоров серии 
"Мультикор" 


Микросхемы сигнальных процессоров серии "Мультикор" [86] — это 
однокристальные программируемые многопроцессорные "системы на 
кристалле" на базе ІР-ядерной (ІР-ітќеПеса! ргорему) платформы 
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"Мультикор" [87], разработанной в ГУП НПЦ "ЭЛВИС". 


Процессоры серии "Мультикор" сочетают в себе лучшие качества двух 
классов приборов: микроконтроллеров и цифровых процессоров 
обработки сигналов (РР), что позволяет решать в рамках 
ограниченных габаритов одновременно обе задачи: управления и 
высокоточной обработки информации, включая сигиалы и 
изображения. 


Микросхемы спроектированы специалистами ГУП НПЦ "ЭЛВИС" 
совместно с центром проектирования "АНГСТРЕМ-М" (топологическое 
проектирование) и "АНГСТРЕМ-СБИС" (разработка блока РЕГ). 
Информация о микросхемах серии представлена в таблице 14.2. 


Таблица 14.2. Цифровые сигиал 
Микросхема МС-12 МС-24 
Техноло: 
НОЛОГИЯ. 10.25 0,25 0, 
изготовления, мкм 


Размер кристалла, мм 


Кр 10 ж 10 10 ж 10 1: 
Интеграция, млн КЕТ еы 18 А 
транзисторов 
Корпус РОЕР240 НВС А292 н 
2 З 
М! 
кена процессора:АІ Соте32+ процессора:КІ5 СогеЗ2+ п] 
Рхитектура ү.соте-14 ЕГсоге-24 2 
Рабочая частота 80 80 1 
Пиковая 
производительность, 240 480 1: 
Мфлопс, 32 бит 
Год выпуска 2004 2004 2 


В качестве процессорных блоков используются следующие типы ІР-ядер 
из библиотеки платформы "Мульгикор"; 


•е процессорные В1$С-ядра с архитектурой М1Р$32, выполняющие 
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функции центрального процессора системы СРО (Селігаї 
Ргосеѕѕіпд Опіб); 

• высокопроизводительные ядра процессоров-акселераторов для 
цифровой обработки сигналов (Р5Р — Рдйа! 5ідпа! Ргосеѕѕіпд) с 
плавающей/фиксированной точкой ЕІ соге-хх (ЕГсоге = Ећееѕ'ѕ 
соге), 


Архитектура микросхем "Мультикор" по организации потоков данных и 
инструкций поддерживает пиковую производительность на 
большинстве задач обработки сигиалов/изображений реального 
времени. Это обеспечивается малым количеством стадий 
процессорного конвейера, а также наличием многоканального 
интеллектуального контроллера РМА с поддержкой режимов 
самосинхронизации ресурсов микросхемы и 32/64-разрядного по 
данным порта внешней памяти со встроенным 
ЅРВАМ/І.АЅН/ЅРАМ/КОМ-контроллером. 


Микросхемы в зависимости от модели содержат от 2 до 8 Мбит 
внутренней памяти, периферийные ЗНАВС-совместимые линки и 
последовательные порты, 12С, 12$, 9$В, Ефегеь РСТ, ОАКТ, ЈТАС, а 
также ги-перлинки типа брасе\М/тге и ЅегіаІ Варіаго. 


Важным преимуществом отечественных микросхем является плотность 
кодов для РЅР-ядер, которая характеризуется длиной программ для той 
или иной функции. Для микросхем серии "Мультикор" данная 
характеристика, как правило, лучше, чем у зарубежных аналогов 


(таблица 14.4), 


Таблица 14.3. Производительность Р5Р-ядер процессоров "Мультикор 


Компания ЭЛВИС ТІ АРІ 
Процессор МС-12 МС-24 МС-0226 ДЕН С6701 С6416 75201 ВІ 
Технология, нм 250 250 250 130 180 130 130 1: 
Тактовая 80 в0 100 300 166 600 600 6 


частота, МГц 


Пиковая производительность по смеси арифметических операций 
(умножения, сложения, вычитания) 
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— 16-разр. 

фиксированная 640 1280 3200 19200 - 4800 14400 3: 
точка, млн оп./ 
с 

— 32-разр. 
плавающая 
точка, млн 
флопс/с 

— 32-разр. 
фиксированная 
точка, млн оп./ 
с 


240 480 1200 3600 1000 - 3600 - 


320 640 1600 4800 - - - - 


— 8-разр. 
фиксированная 
точка, млн оп./ 
(ч 

Пиковая производительность по операции МАС(умножение+накоплені 
— 16-разр. 
фиксированная 
точка, млн оп./ 
с 


1440 2880 7200 28800 - - - 46 


320 800 4800 - - 4800 1: 


— 32-разр. 
плавающая 
точка, млн 
флопс/с 

— 32-разр. 
фиксированная 
точка, млн оп./ 
с 


80 160 400 1200 - - - + 


80 1601 400 1200 - - 1200 - 


— 1-разр. 
фиксированная 
точка, млн оп./ 
с 


1700 3400 8500 25600 - - 32000 - 


Пиковая производительность по операции СМАС (комплексное 
умножение+накопление) 
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— 16-разр. 
фиксированная _ 
точка, млн оп./ 
с 

— 8-разр. 
фиксированная 
точка, млн оп./ 
с 


160 320 800 


Многоядерные процессоры 


1200 - Б - - 


2400 - - - - 


КИХ-фильтр, действительные данные и коэффициенты, 35 отводов, 102. 


входных данных, без прореживания 
- формат 16 ж 
16+32/64, 
фиксированная 
точка, МКС/с 
БПФ-1024, комплексные данные 
— формат 

(16+), 

блочная 145 72 29 
плавающая 
точка, мкс 
- формат 
(32+]32), 
плавающая 
точка, мкс 


243 97 


273 136 55 


БПФ-256, комплексные данные 
— формат 
(16+јЮ), 
блочная 
плавающая 
точка, мкс 


28,9 14,5 5,8 


134 - - о ши 


17,9 160 - 16,8 - 


1 2 З 15 - 


Операция АС5 (сложение+сравнение+выбор) — базовая операция 


декодера Витерби 

— 16-разр. 

метрики путей, 12,5 6,3 2,5 
не/метрика 


1,3 5 0.82 - - 
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Таблица 14.4. Размер программ для Р5Р процессоров "Мультикор" (на 
примере МС-24) по некоторым типовым процедурам обработки 


Процедура Размер) Дополнительные условия 
Ких- 10-15 32-разрядный формат плавающей точки, 
фильтр ^ действительные данные и коэффициенты 


32-разрядный формат плавающей точки, вход: 
комплексные данные, произвольная степень 2, 
выход: комплексная амплитуда/мощность, порядок 
2-инверсный/трямой 


ЕЕТ 150-230 


16-разрядный целочисленный формат (блочная 
РСТ8х8 50-80 плавающая точка} или 32-разрядный формат 
плавающей точки 


$14/С0$ 30 32-разрядный формат плавающей точки 


Команда для О5Р-ядра имеет длину 32 или 64 бита и напоминает с этой 
точки зрения У.У (Уегу опр Іпѕітисіюп Мог). К примеру одна 64- 
разрядная инструкция для Е!Гхсоге-24 может выполнять две пары 
арифметических (логических) операций любой сложности и две пары 
пересылок типа "регистр-память". Это обеспечивает высокую плотность 
кодов для различных программ и позволяет реализовать различные 
функции обработки сигиалов, используя в несколько раз меньше команд, 
чем для многих известных на рынке Р5Р-микросхем. Это обусловлено 
тем, что сравниваемые О5$Р имеют, к примеру, или огромную длину 
конвейера (10-12 уровней, как процессор Трег$НАКС Т$201), или 
низкую плотность кода. Например, число тактов для процедуры РЕТ- 
256 (комплексные 16-разрядные форматы данных и коэффициентов) в 8 
раз короче для 515Р-ядра ЕГсоге-14 (менее 1000 тактов), чем для С54 
разработки ТІ (8542 такта). За то же время 251МР ядро Е1соге-24 может 
выполнять одновременно 2 таких преобразования, т. е, более чем в 16 
раз быстрее по количеству тактов, чем ядро С54. Если обрабатываемый 
поток имеет двукратное распараллеливание, то ускорение обработки за 
счет 251Мр-архитектуры автоматически равно 2. Для более сложной 
ситуации, без распараллеливания по данным, оценки ускорения даны в 


таблице 14.5, 


Таблица 14.5. Оценка ускорения (в разах) процедур обработки сигналов/ 
изображений на 1892ВМ?2Я (МС-24) в режиме 251МР (параллелизм по 
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данным отсутствует) 


Процедура Ускорение Пояснение 
1. КИХ- Формат плавающей точки, действительные 
1,0/1,44 
фильтр < № 12371,61 отсчеты сигнала и отклика фильтра, прямая 
отводами: № т. 48/ Е 6 форма фильтра. Значение справа достигается, 
=8М=16М ..',. если допустимо, чтобы выход формировался в 
1,68/1,86 
= 32 М = 64 виде двух полусумм в соседних словах ХКАМ 
2. БПФ-М, 
комплексы.; Формат плавающей точки, основание 4, один 
1,6 1,66 
№= 256 М = 166 этап выполняется в режиме 5/50, остальные 
1024М= * — в режиме 251Мр 
2048 
2-мерное РСТ, 16-Ъ целочисленный формат, 
з. РСТ-ВхВ 2,0 массив введен в ХКАМ по строкам, 
обрабатывается сначала по строкам, затем — 
по столбцам 
4. Декодер 
Витерби с М Оценены затраты на наиболее громоздкую 
состояниями: 1,67 1,75 часть процедуры: операции АС$, 16-р целый 
№=64М= формат метрик 
256 


Равномерное распределение, 
некоррелированные значения, интервал — 
8192:+8191, 16-Ъ отсчеты упакованы по 2 от 
старших разрядов 


5. Генератор 
случайных 2,0 
чисел 


Микросхема сигнального процессора 1892ВМЗТ 


Микросхема сигнального процессора 1892ВМЗТ (МС-12) — это 
однокристальная двухпроцессорная "система на кристалле" (500) на 
базе ІР-ядерной (1Р-йиеНесша! ргорему) платформы "Мультикор" [84, 85]. 


Состав центрального процессора (СРИ) следующий. Архитектура ядра, 

совместимая с МІР532, имеет 32-битные шины передачи адреса и 

данных, кэш команд объемом 16 Кбайт, внугреннюю оперативную 

память объемом 64 Кбайт, аппаратные блоки умножения и деления. 
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Обрабатываются 5 внешних запросов прерывания, в том числе 
немаскируемое прерывание (ММІ). Производительность составляет 80 
млн оп/с, 


Поддерживается архитектура привилегированных ресурсов в стиле ядра 
84000: регистры Соџ/Сотраге для прерываний реального времени, 
отдельный вектор обработки исключений по прерываниям, 


Программируемое устройство управления памятью; два режима 
работы — с ТІВ (Тгапѕјайоп Гоок аѕійе Вийег) и ЕМ (Ее Маррей), 16 
строк в режиме ТГВ, 


Для отладки используются интерфейс ЈТАС ТЕЕЕ 1149.1, встроенные 
средства отладки программ, 

Цифровой сигиальный процессор (РЅР) построен по "гарвардской" 
КІЅС-подобной архитектуре с оригинальной системой команд и 
преимущественно однотактным исполнением инструкций, Имеется 
5152 (Ѕіпрје Іһѕігисіотѕ Ѕіпрје Гаа) организация потоков команд и 
данных, 3-ступен-чатый конвейер по выполнению 32- и 64-разрядных 
инструкций. В состав сигиального процессора включены также память 
программ РВАМ объемом 16 Кбайт, двухпортовые памяти данных КАМ 
и УВАМ объемом 96 и 48 Кбайт соответственно. 


Процессор имеет стандартный набор инструкций, процедуры 
обработки и пересылки совмещаются, 


Расширены возможности по динамическому диапазону обрабатываемых 
данных, позволяющие обрабатывать данные в 8/16/32-разрядных 
форматах с фиксированной точкой либо в одном из форматов с 
плавающей точкой — 24Е8 (стандарт ІЕЕЕ 754) или 32Е16 
(расширенный формат). Обеспечен компромиссный выбор между 
точностью и производительностью. Реализованы аппаратные меры 
повышения точности и динамического диапазона (блочная плавающая 
точка; режим насыщения; инструкции преобразования форматов). 


Присутствует аппаратная поддержка программных циклов, 


Пиковая производительность РЅР: 
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® 240 млн оп/с 32-битных операций с плавающей точкой (ЕЕЕ 
754); 
® 1440 млн оп./с 8-битных операций с фиксированной точкой; 
® 640 млн оп./с 16-битных операций с фиксированной точкой; 
• 320 млн оп./с 32-битных операций с фиксированной точкой. 


Порт внешней памяти (МРОВТ): 


® шина данных — 32 разряда, шина адреса — 32 разряда; 

® встроенный контроллер управления статической памятью типа 
ЅВАМ, ЕГАЅН, КОМ, а также синхронной памятью типа $РВАМ. 
Возможно программное конфигурирование типа памяти и объема 
ее сегмента, программное задание циклов ожидания, 
формирование сигиалов выборки 4 сегментов памяти, 
обеспечение обслуживания 4 внешних прерываний. 


Периферийные устройства; 


% 12-канальный контроллер прямого доступа в память (РМА). 4 
внешних запроса прямого доступа, Специальные режимы 
синхронизации, Поддержка двумерной и разрядно-инверсной 
адресаций. Режим передачи Е}убу, подобный реализованному в 
АР5Р-Т5201: внешнее устройство — внешняя память; 

• два порта обмена последовательным кодом  (ЗРОВТ), 
совместимые с Ар5Р21160 (разработка фирмы АР); 

• четыре линковых порта (ГРОВТ), совместимые с АО$Р21160. 
Имеется режим работы в качестве портов ввода-вывода общего 
назначения (С РІО); 

• универсальный асинхронный порт (САВТ) типа 16550; 

* набор таймеров — 32-разрядный интервальный таймер (ІТ), 32- 
разрядный таймер реального времени (АТТ), 32-разрядный 
сторожевой таймер (МРТ). 


Реализованы дополнительные возможности и особенности: 
® узел фазовой автоподстройки частоты (РЕГ) с умножителем/ 


делителем входной частоты; 
• встроенные средства отладки программ (ОпСр); 
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® порт ЈТАС в соответствии со стандартом ІЕЕЕ 1149.1. 


Рассеиваемая мощность — около 1200 мВт (максимальная); режимы 
энергосбережения; 700 — при неработающем РЅР-ядре (режим Ѕіор); 
70 — при программном уменьшении тактовой частоты в 16 раз; 30 — 
при программном отключении тактовой частоты (включение тактовой 
частоты осуществляется по внешним прерываниям). 


Структурная схема микросхемы 1892ВМЗТ приведена на Рис. 14.2, 
Состав процессора; 

СР — центральный процессор на основе В1$С-ядра; 

СВАМ — двухпортовая оперативная память центрального процессора; 


О5Р — сопроцессор цифровой обработки сигналов с фиксированной 
точкой; 


РМА — контроллер прямого доступа в память; 
МРОВТ — порт внешней памяти; 

ЅРОВТ — последовательный порт; 

ГРОКТ — линковый порт; 

ОАРТ — универсальный асинхронный порт; 
ІСАСНЕ — кэш программ центрального процессора; 
ІТ — интервальный таймер; 

МРТ — сторожевой таймер; 

ВТТ — таймер реального времени; 

СРВ(310] — шина данных СРО; 


РРВ[31:0] — шина данных РМА; 
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А[31:0] — шина адреса порта внешней памяти; 


[31:0] — шина данных порта внешней памяти; 
ОтһсСр — встроенные средства отладки программ; 
ХКАМ, ҮКАМ — памяти данных РР; 

РВАМ — память программ РР; 

АСИ — адресный генератор; 

ЕРВЅ — коммутатор внешних шин; 

ТОВ$ — коммутатор внутренних шин; 

РСО — устройство программного управления; 
РАС — генератор адреса программ; 

РРС — программный дешифратор; 

ВЕ — регистровый файл; 

АБО — арифметическое устройство; 

АТС — управление АЁ. 07; 

ХОВО — ХОВЗ, СОВ, РОВ — шина данных РЅР; 
ХАВ, ҮАВ, РАВ — адресные шнны РР; 


М, $, А, Г. — арифметические узлы АБО РР. 
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Ядро ЦЛС Еїаге-1405Ру 


Рис. 14.2. Структурная схема микросхемы 1892ВМЗТ(МС-12) 


СРО-ядро является ведущим в двухпроцессорной конфигурации 
микросхемы и выполняет основную программу Для СРО-ядра 
обеспечен доступ к ресурсам РЅР-ядра, являющегося ведомым по 
отношению к СРО-ядру; обмен данными СРО-ядра с ресурсами О5$Р- 
ядра выполняется по командам ГОАО, $ТОВЕ. Память О5Р-ядра и его 
регистры для СРО-ядра — 32-разрядные (словные), то есть состояние 
двух младших разрядов адреса игнорируется, 


СРО-ядро управляет работой РЅР-ядра, передавая ему задание (ма- 
крокоманду). Затем запускает РЅР-ядро, переводя его из режима ЗТОРв 
режим ВОМ. С другой стороны, РЅР-ядро формирует следующие 
прерывания в СРО-ядро: программное; по переполнению стека; при 
выполнении команды ТОР; при достижении адреса останова при 
исполнении программы до адреса останова или завершении требуемого 
числа шагов при пошаговом исполнении программы. 


Микросхема сигнального процессора 1892ВМ2Я 


286 


Калачев А.В Многоядерные процессоры 
Состав центрального процессора (СРЈ) во многом аналогичен 
центральному процессору микросхемы 1892ВМЗТ, 


Архитектура ядра — совместимая с МІР532, имеет 32-битные шины 
передачи адреса и данных, кэш команд объемом 16 Кбайт, внутреннюю 
оперативную память объемом 32 Кбайт, аппаратные блоки умножения 
и деления, Производительность составляет 80 млн оп./С, 


Поддерживается архитектура привилегированных ресурсов в стиле ядра 
К4000: регистры Соџ/Сотраге для прерываний реального времени, 
отдельный вектор обработки исключений по прерываниям. 


Программируемое устройство управления памятью: два режима 
работы — с ТІВ (Тгапѕјайоп Гоок аѕійе Вийег) и ЕМ (Ее Маррей), 16 
строк в режиме ТІВ, 


Для отладки используются интерфейс ЈТАС ТЕЕЕ 1149.1, встроенные 
средства отладки программ, 


Цифровой сигиальный процессор (Р5Р) микросхемы 1892ВМ2Я 
построен по №арвардской" БІЅС-подобной архитектуре и 
преимущественно однотактным исполнением инструкций. 
Поддерживается 251МО (Ѕіпрје Іпѕігисіоп Мшире Раѓа) организация 
потоков команд и данных, Имеет стандартный набор инструкций, 
процедуры обработки данных и пересылки совмещаются; 
трехступенчатый конвейер по выполнению 32-и 64-разрядных 
инструкций, Реализована аппаратная поддержка программных циклов. 
В состав сигнального ядра включена память программ РЕКАМ объемом 
16 Кбайт и двухпортовые памяти данных ХКАМ и УВАМ объемом 128 
и 32 Кбайт соответственно. 


Расширены возможности по динамическому диапазону обрабатываемых 
данных, позволяющие обрабатывать данные в 8/16/32-разрядных 
форматах с фиксированной точкой либо в одном из форматов с 
плавающей точкой — 24Е8 (стандарт ЧЕЕЕ 754) или 32Е16 
(расшнренный формат). При этом обеспечивается возможность 
компромиссного выбора между точностью и производительностью. 
Реализованы аппаратные меры повышения точности и динамического 
диапазона (блочная плавающая точка; режим насыщения; инструкции 
преобразования форматов). 
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Пиковая производительность РЅР: 


• 480 млн оп,/с 32-битных операций с плавающей точкой (ЕЕЕ 
754); 
2880 млн оп./с 8-битных операций с фиксированной точкой; 
1280 млн оп./с 16-битных операций с фиксированной точкой; 
640 млн оп./с 32-битных операций с фиксированной точкой. Порт 
внешней памяти (МРОВТ); 

• шина данных — 64 разряда, шина адреса — 32 разряда; 

® встроенный контроллер управления статической памятью типа 
ЅКАМ, ЕГАЅН, КОМ, а также синхронной динамической памятью 
типа 5РКАМ; 

• программное конфигурирование типа памяти и объема ее 
сегмента, задание циклов ожидания, формирование сигиалов 
выборки 4 сегментов памяти. 


Обеспечивается обслуживание 4 внешних прерываний. ЅРВАМ имеет 
режим энергосбережения. 


Периферийные устройства: 


® 12-канальный контроллер прямого доступа в память (РМА); 4 
внешних запроса прямого доступа; специальные режимы 
синхронизации; поддержка 2-мерной и разрядно-инверсной 
адресации; режим передачи Е\Убу, подобный реализованному в 
АР5Р-Т5201: внешнее устройство — внешняя память; 

• два порта обмена последовательным кодом  (ЗРОВТ), 
совместимые с Ар5Р21160 (разработка фирмы АР); 

• четыре порта связи (ГРОВТ), совместимые с АО$Р?21160; имеется 
режим работы в качестве портов ввода-вывода общего назначения 
(СРЮ); 

• универсальный асинхронный порт (САВТ) типа 16550; 

* набор таймеров — 32-разрядный интервальный таймер (ІТ), 32- 
разрядный таймер реального времени (ВТТ), 32-разрядный 
сторожевой таймер (МРТ). 


Дополнительные возможности и особенности: 


288 


Калачев А.В Многоядерные процессоры 
® узел фазовой автоподстройки частоты (РЕГ) с умножителем/ 
делителем входной частоты; 
® встроенные средства отладки программ (ОпСр); 
® порт ЈТАС в соответствии со стандартом ІЕЕЕ 1149.1. 


Рассеиваемая мощиость, мВт, — около 1500 (максимальная); режимы 
энергосбережения; 700 — при неработающем РЅР-ядре (режим Ѕіор); 
80 — при программном уменьшении тактовой частоты в 16 раз; 30 — 
при программном отключении тактовой частоты (включение тактовой 
частоты осуществляется по внешним прерываниям); 


СРО-ядро является ведущим в двухпроцессорной конфигурации 
микросхемы (рис. 14.3) и выполняет основную программу Для СРО- 
ядра обеспечен доступ к ресурсам О5Р-ядра, являющегося ведомым по 
отношению к СРО-ядру: обмен данными СРО-ядра с ресурсами О5Р- 
ядра выполняется по командам ГОАО, $ТОВЕ. Память Ю5$Р-ядра и его 
регистры для СРО-ядра 32-разрядные (словные), то есть состояние двух 
младших разрядов адреса игиорируется. 


СРО-ядро управляет работой РЅР-ядра, передавая ему задание (ма- 
крокоманду). Затем запускает О5Р-ядро, переводя его из режима ЅТОР в 
режим ЕОМ, С другой стороны, РЅР-ядро формирует следующие 
прерывания в СРО-ядро: программное; по переполнению стека; при 
выполнении команды $ТОР; при достижении адреса останова при 
исполнении программы до адреса останова или завершении требуемого 
числа шагов при пошаговом исполнении программы. Состав процессора: 


289 


Калачев А.В 'Многоядерные процессоры 
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Рис. 14.3. Структурная схема микросхемы 1892ВМ2Я(МС-24) 

Состав процессора; 

СРО — центральный процессор на основе ВІЅС-ядра; 

СВАМ — двухпортовая оперативная память центрального процес- сора; 


РЅР — сопроцессор цифровой обработки сигналов с фиксирован- ной 
точкой; 


РМА — контроллер прямого доступа в память; 
МРОВТ — порт внешней памяти; 

ЗРОКТ — последовательный порт; 

ГРОКТ — линковый порт; 


САВТ — универсальный асинхронный порт; 
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ІСАСНЕ — кэш программ центрального процессора; 


ІТ — интервальный таймер; 

МРТ — сторожевой таймер; 

ВТТ — таймер реального времени; 

СРВ(310] — шина данных СРО; 

РРВ[63:0] — шина данных РМА; 

А[31:0] — шина адреса порта внешней памяти; 
1(63:0] — шина данных порта внешией памяти; 
ОпСр — встроенные средства отладки программ; 
ХКАМ, УВАМ — памяти данных РР; 

РВАМ — память программ РЅР; 

АСУ — адресный генератор; 

ЕРВ$ — коммутатор внешних шин; 

ТОВ$ — коммутатор внутренних шин; 

РСО — устройство программного управления; 
РАС — генератор адреса программ; 

РРС — программный дешифратор; 

КЕ — регистровый файл; 

АБО — арифметическое устройство; 

АТОС — управление АГ; 


ХОВО — ХОВЗ, срв, РОВ — шина данных Б$Р; 
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ХАВ, УАВ, РАВ — адресные шины РР; 


М, 5, А, Г. — арифметические узлы А7 РЅР. 


Микросхемы сигнальных процессоров 1892ВМ5Я 
(МС-0226, ЦПОС-02) и 1892ВМАЯ 


Микросхемы сигнальных процессоров 1892ВМ5Я (МС-0226, ЦПОС-02) 
и 1892ВМ4Я (МС-02266, МЦОС) спроектированы по заказу НИИСИ 
РАН как однокристальные трехпроцессорные "системы на кристалле" 
(50С) на базе ПР-ядерной (ТР-шейесша! ргорему) платформы 
"Мультикор" [87]. 


Все три процессорных ядра работают независимо друг от друга (каждый 
по своей собственной программе) и вследствие этого представляют 
систему на кристалле МІМР-архитектуры (МІМР — Мур Ірѕігисіопѕ 
Мире Пай), 


СРО-ядро является ведущим в трехпроцессорной конфигурации 
микросхемы и выполняет основную программу Для СРО-ядра 
обеспечен доступ к ресурсам РЅР-ядер, являющихся ведомыми по 
отношению к СРО-ядру; обмен данными СРО-ядра с ресурсами РЅР- 
ядер выполняется по командам ГОАО, 5ТОВЕ, Память О5Р-ядер и их 
регистры для СРО-ядра — 32-разрядные (словные), то есть состояние 
двух младших разрядов адреса игнорируется. 


СРО-ядро управляет работой РЅР-ядер, передавая им задание 
(макрокоманду). Затем запускает РЅР-ядра, переводя их из режима 
ЗТОР в режим КОМ. С другой стороны, РЅР-ядра формируют 
следующие прерывания в СРО-ядро: программное, по переполнению 
стека, при выполнении команды $ТОР, при достижении адреса 
останова при исполнении программы до адреса останова или 
завершении требуемого числа шагов при пошаговом исполнении 
программы. 


СРО по шине СРВ имеет доступ ко всем устройствам 1892ВМ5Я. 

Коммутатор обеспечивает передачу данных между любым 

исполнительным устройством (51ауе) и любым задатчиком (Мазіег). При 

этом процесс передачи данных между любыми парами 5їауе-Маѕіег 
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выполняется параллельно и без конфликтов. 


Исполнительными устройствами являются блоки внутренней памяти 
(СВАМ, память О$Р0-0О$РЗ) или любая внешняя память, доступная 
через МРОКТ. Задатчиками могут быть СРО, каналы РМА линковых 
портов, каналы РМА типа "память-память" и каналы РМА контроллера 
РСТ. 


Центральный процессор (СРО) — МІР532-совместимый; 32-битные 
шины передачи адреса и данных; кэш команд объемом 16 Кбайт; 
оперативная память (СВАМ) объемом 32 Кбайт; 5 внешиих запросов 
прерывания, в том числе немаскируемое прерывание (ММІ); устройство 
умножения и деления. Архитектура привилегированных ресурсов — в 
стиле ядра В4000 (регнстры Соип/Сотраге для прерываний реального 
времени; отдельный вектор обработки исключений по прерываниям). 
Производительность — 100 млн оп./С. 


Программируемое устройство управления памятью обеспечивает: 


• два режима работы — с ТІВ (Тгагѕайоп Гоок аѕійе Вићег) и ЕМ 
(Ејхеі Маррей); 

» 16 строкв режиме ТЕЁВ; 

• ЈТАС ТЕЕЕ 1149.1, встроенные средства отладки программ, 


Два цифровых сигнальных сопроцессора (05Р0-Р5Р1), каждый из 
которых характеризуется следующими возможностями; 


® "гарвардская" В15С — подобная архитектура с оригинальной 
системой команд и преимущественно однотактным исполнением 
инструкций; 


• память программ РВАМ объемом 16 Кбайт; 

* двухпортовые памяти данных ХВАМ и ҮКАМ объемом 96 и 32 
Кбайт соответственно; 

• 251МР (519 Іпѕігисбоп Мире Ра) организация потоков команд 
и данных; 

® набор инструкций, совмещающий процедуры обработки и 
пересылки; 

•е Трехступенчатый конвейер по выполнению 32- и 64-разрядных 
инструкций, 
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Расширены возможности по динамическому диапазону обрабатываемых 
данных, позволяющие обрабатывать данные в 8/16/32-разрядных 
форматах с фиксированной точкой либо в одном из форматов с 
плавающей точкой — 24Е8 (стандарт ІЕЕЕ 754) или 32Е16 
(расширенный формат). Обеспечен при этом компромиссный выбор 
между точностью и производительностью. Имеются аппаратные меры 
повышения точности и динамического диапазона (блочная плавающая 
точка; режим насыщения; инструкции преобразования форматов) 


Введена аппаратная поддержка программных циклов. Программная 
совместимость — снизу с сигнальным контроллером 1892ВМ2Я 
(МС-24). 


Пиковая производительность, обеспечиваемая двумя О5Р-ядрами; 


® 1200 млн оп./с 32-битных операций с плавающей точкой (ЕЕЕ 
754); 

® 7200 млн оп./с 8-битных операций с фиксированной точкой; 

• 3200 млн оп./с 16-битных операций с фиксированной точкой; 

• 1600 млн оп./с 32-битных операций с фиксированной точкой. 


Порт внешней памяти (МРОВТ): 


шина данных — 64 разряда, шина адреса — 32 разряда; 

поддержка асинхронной памяти типа $ВАМ, КОМ, ЕГА$Н; 
поддержка синхронной памяти типа 5РЕАМ; 

поддержка синхронной статической памяти типа $ВЅКАМ; 
программное конфигурирование типа памяти и объема ее 
сегмента; 

программное задание циклов ожидания; 

формирование сигналов выборки 4 сегментов памяти; 
обеспечение обслуживания 4 внешних прерываний; 

перевод 5РКАМ в режим энергосбережения, 


Контроллер РСТ (РМС — РСІ Мачег-Зауе сопітоћег) соответствует 
спецификации Госа! Виз бресйсаНоп. Веу, 2.2; при тактовых частотах — 
до 100 МГц; разрядность — 32 разряда. Присутствуют режимы Мазег и 
Зюуе, реализовано 2 канала РМА; встроен арбитр с циклически 


изменяемыми приоритетами запросов. 
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Периферийные устройства: 


® 12-канальный контроллер прямого доступа в память (РМА); 4 
внешиих запроса прямого доступа; специальные режимы 
синхронизации; поддержка двумерной и разрядно-инверсной 
адресации; режим передачи Е\Убу, подобный реализованному в 
АР5Р-Т5201: внешиее устройство — внешняя память; 

~ четыре линковых порта (ГРОВТ), совместимые с Ар5Р21160. 
Имеется режим работы в качестве портов ввода-вывода общего 
назначения (СРО); 
универсальный асинхронный порт (ОАВТ) типа 16550; 
набор таймеров — 32-разрядный интервальный таймер (ІТ), 32- 
разрядный таймер реального времени (АТТ), 32-разрядный 
сторожевой таймер (ЄРТ). 


Даухпортовря 
опоративная 
память 
центральна 


Сигнальный 
процессор 


Сигнальный 
процессор 1 
(0521) 


актовый 
тчнвратор 


Рис. 14.4. Структурная схема микросхемы 1892ВМ5Я (МС-0226) 


Процессор имеет узел фазовой автоподстройки частоты (РЕЕ) с 
умножителем/делителем входной частоты. 


Имеются режимы энергосбережения, 
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Все микросхемы серии совместимы по программному обеспечению 
снизу-вверх. К примеру код для 1892ВМЗТ (МС-12) полностью 
выполняется на 1892ВМ2Я (МС-24), что обеспечивает для 
пользователей комфортный переход с одной микросхемы на другую. 


Для программирования микросхем используются: 


® инструментальная среда разработки и отладки программ 
мс; 

~ инструментальная среда разработки и отладки программ 
МС юо- ЕСІ, включающая полный компилятор с языков Си С 
++; 

• библиотеки прикладных программ; 

• ядро операционной системы ЫМОХ 2.6.19; 


операционная система реального времени ОМХ 6.3, 


В состав отладочных комплектов для микросхем входят: отладочный 
модуль с установленной микросхемой серии "Мультикор", комплект 
кабелей и блока питания для подключения микросхемы через ЈТАС- 
порт к ПЭВМ, а также СО с документацией и инструментальным ПО — 
МС5кію, 


Для разработчиков систем на базе микросхем серий "Мультикор" 
обеспечивается возможность применения новых адаптивных 
алгоритмов принятия решений (ВТ.5/.М$ алгоритмы), в частности, для 
адаптивных антенных решеток. 


Микросхемы серии могут быть эффективно использованы в следующих 
приложениях: 


радиолокационные и гндроакустические системы; 
фазированные антенные решетки; 
связь и телекоммуникация: базовые станции, РУВ-приемники и 
тд. 

~ сигнальная обработка: БПФ, фильтрация, корреляция, быстрая 
свертка; 
графические ускорители; 
мультимедийная обработка изображений и цифровое телевидение 
(Н.264/АУС (СІБЕ), ЈРЕС 2000 ит. д.); 
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® мультимедийная обработка звука (МРЕС-1 Ашіо ГауегЗ [МРЗ], 
АМЕ, ММА, ААС и другие звуковые кодеки); 

® правление объектами с использованием высокоточных 
адаптивных методов; 

• высокоточная обработка данных для малогабаритных мобильных 
и встраиваемых систем; 

® системы промышленного контроля 


Телекоммуникационный микропроцессор МУСот-01 


Телекоммуникационный микропроцессор МУСоп-01 ("Навиком") 
является программируемой трехпроцессорной "системой на кристалле" 
со встроенной фунацией 48-канальной ГЛОНАСС/СР5-навигации [88]. 


Микросхема "Навиком" обеспечивает аппаратно-программную 
поддержку фунаций обработки навигационного сигнала 
ГЛОНАСС/СР5, процедур цифровой обработки сигналов, ряда 
коммуникационных процедур (Витерби, турбокодирования, коррелации 
и др.), обработки изображений, 


Микросхема спроектирована по технологни 0,13 мкм на базе ІР-ядерной 
платформы "Мультикор" [87], размеры кристалла 8,8 9,5 мм ж мм, го 
60 млн транзисторов, 


Возможности микропроцессора позволяют использовать его в широком 
диапазоне областей применений: 


® абонентские терминалы мультистандартных систем 
профессиональной связи (от стандарта ТЕТВА до систем ЗС) со 
встроенной функцией навигации; 

® портативные ГЛОНАСС/СР5-приемники, в том числе для 

подвижных платформ (автомобилей, железнодорожного 

транспорта); 

аппаратура цифрового телевидения (РУВ) и радио (РЕМ); 

ІР-камеры с "интеллектуальным зрением", ІР-телефония; 

аппаратура беспилотных летательных аппаратов (БПЛА); 

специальные применения. 


Микропроцессор МУСот-01 позволяет замещать 
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высокопроизводительные Р5Р-процессоры зарубежного производства, 
в том числе микросхемы АРЅР Т$201 (АРТ, ряд микросхем серии 
ОМАР (ТІ), навигационные микросхемы З®Р Айаѕ-Ш (ВЕ). 


Основные характеристики: 


® тактовая частота: до 300 МГц; 

® архитектура трехьядерная, МІМР (Мире Іпѕітисііопѕ Мире Раса). 
ВІЅС-ядро: МІР532 — архитектурно совместимое с 
гапроцессором арифметики в формате с плавающей точкой; 
устройство умножения и деления; два Р5ЅР-ядра 515Р- 
архитектуры, образующих новое программируемое сдвоенное 
"мега-ядро" сигнального процессора с плавающей и 
фиксированной точкой и общим полем памяти — РЕЦСоге-30 
(РиаГЕГУЕЕ$ Соге); 

~ пиковая производительность; 3,6 Гфлопс (йоа!32) / 14.4 Гоп./с 
(ї1016)/ 28.8 Гоп./с; 

е РЕТ — 1024 (комплексное): 4,7 мкс (блочная плавающая точка, 16 
бит) и 15,4 мкс (плавающая точка, 32 бита, ІЕЕЕ754); 

® интегральный объем встроенной памяти: г. 4 Мбит (для всех 
процессорных ядер); 

• 32-разрядный порт внешией памяти МРОКТ со встроенным 
контроллером доступа к внешней памяти типа ЅВАМ/ЅРВАМ/ 
ЗВ5ВАМ/ЕБА$Н/ВОМ; 

® встроенный ОМА-контроллер; 

® последовательные порты 12С, 9$В, Ефеге! 10/100 Мбит/с, 2 
порта (АКТ, 4 многофункциональных порта МЕВЅР (125/ $РИ 
ЅНАКС ГРОВТ/ СРО) с ОМА; 

® порты ввода и вывода видеоданных; 

ә ЛАС ТЕЕЕ 1149.1, встроенные средства отладки программ 
(Опср); 

® встроенный умножитель/делитель входной частоты (Рі); 

® интервальный таймер (ІТ), таймер реального времени (ЕТТ), 
сторожевой таймер (МРТ). 


Многоканальный навигационный коррелятор (МСС); 
® 48 каналов слежения; 


® навигационные сигналы СР5 С/А, СР5 120 ГЛОНАСС СТ; 
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• устройство быстрого поиска (Еаѕі беагсй Епдте, ЕЗЕ); 

• прикладные библиотеки обработки жатия видео- и 
аудиосигналов; ЕРТ, фильтрации, адаптивной фильтрации, 
ЈРЕС/МЈРЕС/ МРЕС2/МЈРЕСА4-видеокодер; МРЗ аудио-декодер, 
ТЕТВА (аудиокодек), ІР-телефонии и др.; 

® средства разработки: среда разработки и отладки программ 
МС 03, ядро ОС Гіпих 2.6 (планируется); 

® напряжение питания: периферия — 3,3 В, ядро — 1,2 В; 

® частота/мощность потребления, МГц/мВт: 80/280 и 300/ =. 1000, 
программируемые режнмы энергосбережения; 

* корпус: Н$ВСА400, размер 21 = 21 мм ж мм (в серии 
планируются корпуса размером 10 „ 10 мм мм и 51Р-модули на 
базе МУСош и 5РЕАМ/ЕГА$Н), 


Примечание. приведены параметры микросхем при работе в 
нормальных климатических условиях. 


МУСоп-01 программно совместим снизу с серией сигнальных 
микропроцессоров "Мультикор" (18928 Мхх) разработки НПЦ "ЭЛВИС", 
а также с другими разработками фирмы (1288ХКхх, 1892ХДхх, 
2008ВГЛЯ, 1508 ПЛ8Т, 1508 ПЛ9Т). 


В15$С-ядро является ведущим в трехпроцессорной конфигурации 
микросхемы и выполняет основную программу Для КІЅС-ядра 
обеспечен доступ к ресурсам РЅР-ядер, являющихся ведомыми по 
отношению к В!5С-ядру 


Таблица 14.6. Параметры быстродействия микросхем МУСош-01 


Характеристика Значение 
Тактовая частота, МГц 300 
Формат фиксированной точки (іп16) 

Пиковая производительность, млн.оп./с 14400 
МАС, млн.оп./с 4800 
МАС комплексный, млн.оп./с 1200 
КИХ — фильтр, нс/отвод 0,22 

КИХ — фильтр комплексный, нс/отвод 0,75 


ЕЕТ — 1024, комплексное, блочная плавающая точка, мкс 4.7 
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ЕЕТ — 2048, комплексное, блочная плавающая точка, мкс 9.4 


ЕЕТ — 256, комплексное, блочная плавающая точка, мкс 0.94 


РСТ 8, нс 13.4 

РСТ — 8 х8, блочная плавающая точка, нс 267 

Пороговый анализ, нс/отсчет 0.21 (1116) 

З 0.42 (1132) 

0.2 + М 

'Уторядочение (поиск М максимумов), нс/отсчет:16- ож М 

разрядный целый формат 32-разрядный целый формат 32- 04 М 

разрядная плавающая точка, знак известен 32-разрядная 1.7+0.4 а 

плавающая точка, знак неизвестен м 

Медианная фильтрация (в окне размером М), нс/вых.отсчет 25 
(04/8]+1) 

Декодер Витерби (скорость 1/2, мягкие решения, 16- 17 

разрядный целый формат метрик), нс/метрика: > 

Формат фиксированной точки (#8) 
Пиковая производительность, млн.оп./С 28800 
МАС комплексный, млн.оп./с 2400 
Формат плавающей точки (й0а124.е8) 

Пиковая производительность, Мфлопс 3600 

ЕЕТ — 1024 (комплексное, плавающая точка, 32 бита, 154 

ІЕЕЕ754), мкс 

Формат плавающей точки (й0а(32.е16) 
Пиковая производительность, Мфлопс 60 


На базе микросхемы  МУСош-01 разрабатывается линейка 
навигационных приемников и абонентский терминал стандарта 
"ТЕТВА" с подключением ІР-камеры. 


Краткие итоги 


Основная доля работ нацелена на обработку сигналов в реальном 
времени. Преобладают асимметричные процессоры, имеющие ядро 
общего назначения и одно или несколько ядер сигнального процессора. 
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Программная поддержка включает в себя среду разработки, основную 
ориентацию на системы Ііпих и операционные системы реального 
времени, в частности ОМХ. 


Целевые приложения; 


радиолокационные и гидроакустические системы; 

фазированные антенные решетки; 

связь и телекоммуникация: базовые станции, РУВ-приемники и т. 
д. 

сигнальная обработка: БПФ, фильтрация, корреляция, быстрая 
свертка; 

графические ускорители; 

высокоточная обработка данных для малогабаритных мобильных 
и встраиваемых систем; 

системы промышленного контроля. 


Контрольные вопросы 


1. Из каких основных блоков состоит микропроцессор 1891ВМЗ? 

2. Опишите общую структуру микросхем сигнальных процессоров 
серии "Мультикор". 

3. По кокой архитектуре построен телекоммуникационный 
микропроцессор МУСот-01? 

Упражнения 

1. Дайте характеристику средствам программирования 
микропроцессоров отечественных серий. 

2. Проведите сравнение направлений развития иностранных и 


отечественных микропроцессоров, 


1 данные одного процессора 
2) данные одного процессора 
3) 32-разрядные слова 
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Сравнительные характеристики процессоров 


Приводится сравнение характеристик процессоров по показателям: 
разрядность, производительность, потребляемая мощность, размеры, 
классы задач, на которые рассчитаны, стоимость. Приводится также 
примерная классификация рассмотренных выше процессоров. 


Интегральные характеристики 


Среди многоядерных процессоров к данному моменту можно выделить 
процессоры, предназначенные в основном для встраиваемых и 
мобильных приложений, в которых большое внимание разработчиков 
было уделено средствам и методам снижения энергопотребления, 
процессоры для вычислительных или графических станций, где 
вопросы энергопотребления не столь критичны, процессоры т н. 
мейнстрима — предназначенные для серверных, рабочих станций и 
персональных компьютеров. 


К первому классу можно отнести процессоры семейств ЗЕАЮМЬ 
(ЅЕАїотћ24, ѕеаќотћ40), Те (Т1е36, ТШеб4, Тіеб4рго), АзАР-П, С$Х700. 
Во второй класс попадают прежде всего графические процессоры, 
например, процессоры серии #80 от МУІРІА, проект Гаггабее от Пие|, 
отчасти сюда можно отнести и процессор Се] от ІВМ, хотя количество 
вычислительных ядер у него относительно невысоко, Третий класс 
составляют процессоры, выпускаемые такими промышленными 
гигантами, как АМР, Іле], Ѕип, 


Среди вышеперечисленных к асимметричным можно отнести 
процессоры АѕЅАР, Се, МС- ж, МУСоп-01. Остальные процессоры 
имеют однотипные ядра (таблица 15.1), 


Таблица 15,1. Классификация многоядерных процессоров, 
представленных на современном рынке 


УМ 
ктур: МІМр 
рита с (потоковые) 
$МР ЅЕА№гіћ, ТШе, Тагтађее, Оріегоп, Меһајет, Ога С80, 
Ѕрагс, 1891ВМ3, АВМ МРСоге С5Х700 


АМР Се}, АЗАР, МС- ж, МУСот-01 
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Произведем сравнение их характеристик по следующим показателям; 
разрядность, производительность, потребляемая мощность, стоимость, 
размеры, классы задач, на которые рассчитаны. Безусловно, данное 
сравнение не вполне корректно, так как даст только абсолютные или 
пиковые показатели процессоров, безотносительно к задачам или 
тестам, однако оно даст общую картину — своего рода срез. 


Сравнительные характеристики производительности процессоров, 
потребляемой мощности и скоростей обмена данными представлены в 
таблицах 15.2 и 15,3. 


Таблица 15.2. Производительность многоядерных процессоров 


Миллионов Количество 
Процессор Количество операций в МФлопс ООВ ЕВ Потребляемая 
ядер секунду (общее) мощность, Вт 
общее) Е" 
ЅЕАопЬ40 40 26000 = 1 0,5 
Тіеб4рго 64 443000 = 1 20 
ТИе-Сх100 100 750000 1 10-50 
АЗАР 167 а 770 1 0,01-10 
С5Х700 192 48000 96000 1 9 
ТагтаБее го 32 2000 4 
С80 128 518000 96 150 
е 4 3200 90 2 0,4 
хр832 8 4000-16000 4 15-50 
АЕМ11 
МрСоге 4 1200-2400 1 
АВМ 
Соцех-А9 4 го 8000 1 
МРСоге 
АВМ 
Сомех-А5 д го 2000 1 
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МРСоге 


Сей 
Втоааапа 


АМР 416/12 
Орегоп 


Ѕип Ога 
Ѕрагк Т2 
ие] Соге 
й 
МС-24 2 
МС-0226 3 
МУСоп- з 
01 
МС-0428 5 


17000 250000 2 


28800- 
41600/ 2 
40-75 
43200- 2 
62400/ 
86400- 
124800 


21600- 
46800 


7200-22400 11000 8 


38400- 60000- 

105600 70000 

640 480 1 

1600 1200 1 

4800 3600 1 
>8000 


Многоядерные процессоры 


80 


40-75 


46/57/91 


90-130 


1,5 


0,28-1,0 


Таблица 15.3. Скорости передачи данных и топология связей 


Процессор 
ЅЕАогћ40 


Тіеб4рго 


Тійе-Сх100 


АЅАР 
С5Х700 


Гагађее 


Скорость передачи 


Топология данных между 
ядрами 
решетка 3,6 Гб/с 
сеть 
(толстое 27 Тб/с 
дерево) 
сеть 
(толстое 200 Тб/с 
дерево) 


ячеистая сеть 1200 Мб/с 
линейка 4 Гб/с 


двойное 
кольцо 


Скорость 

обмена с 

памятью 
0,9 Гб/с 


25,6 Гб/с 


500 Гб/с 


2х4 Гбіс 
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шина в 


680 76 Гб 
памяти 
хр832 бетыпередечи 51,2 Гб/с 
сообщений 
АЕМ11 МРСоге шина 1,3 Гб/с 1,3 Гб/с 
АВМ Сопех-А9 
МРСоге шина 1,3 Гб/с 1,3 Гб/с 
АВМ Сопех-А5 
МРСоге шина 1,3 Гб/с 1,3 Гб/с 
Сей Вгоайћапа 8 АВОЙНЫХ 756 гус 25,6 Гб/с 
кольца 
АМ” Оріегоп ПёРеКФеСТНЫЙ 3 > суд, бгбіс 5,3 Гб/с 
коммугатор 
Ѕип Оа Ѕрай Т2 ПеРеКРеСТНЫй 50 рос 50 Гб/с 
коммутатор 
ие Соте й "@РеКЕСТНЫЙ 15 в рес 32 Гб/с 
коммутатор 
18918м3 точка-точка 2,664 Гб/с 
МС-12(18928МЗТ) шина 
МС-24 шина 
МС-0226 звезда 
МУСот-01 звезда 
МС-0428 звезда 


Производительность отдельных ядер 


Достаточно интересно также сравнить характеристики отдельных ядер 
многоядерных процессоров — производительность, количество 
поддерживаемых потоков выполнения, потребляемая мощность 


(таблица 15.4). 


Таблица 15.4. Производительность отдельных яди 


Миллионов Количество Потребляемг 
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Процессор 


ЗЕАЮГВ40 
Тіеб4рго 


Тйе-Сх100 
АЅАР 


С5Х700 
Тагтађее 
280 
Мірв32 1004к 


х1р832 


АВМ11 МРСоге 


АРМ Соцех-А9 
МРСоге 
АКМ Соцех-А5 
МРСоге 
Сей Вгоадђапӣ 
АМР Оріегоп 


Зип Ога Ѕрагк Т2 


ліе] Соге ї7 


1891ВМЗ 


Разрядность операций в потоков на 


18 
32 
32 
64 
16 
16 
32 
32/512 
32 
32 
32 
32 


32 


32 


32 


64/128 
64 
64 


64 


МС-12(1892ВМЗТ) 32/64 


секунду 


700 

700 

866 
3000-4500 
66 

1000 

250 


1350 
800 
500 
2000 


320-620 


1000-2000 


480 


4000 
5400 
7800 
1800 
2200 
2800 
9600 
13200 
500 
80/320 


меьыннынынн 


ь ь 


№ 
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ядро 


ядром 
мощность,В 


0,0125 
0,3125 
0,3125 
0,1-0,5 
0,0001 
0,0599 
0,0469 


1,1719 
0,1000 
1,8750 
6,2500 


0,075-0,260 


0,06 


8,8889 
10,0000 
12,5000 
11,5000 
9,5000 
11,3750 
22,5000 
16,2500 
2,5 
0,7/0,5 
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МС-0226(1892ВМ5Я) 32/64 100/800 12 0,7/0,8 
МУСот-01 32/64 1 
МС-0428 32/64 1 


Немалый вклад в общую производительность процессора и 
эффективность его работы вкладывает и структура межъядерных связей 
и организация подсистемы памяти, в частности кэпепамяти ‘таблица 
15.5). 


Таблица 15,5. Кэш-память 
Размер кэша, байт 


Процессор в 11 о Т3 
11-І 11-р 
ЅЕАіотћ40 40 640 
Теб4рю 64 16К 64к 5м2 
Тие-Сх100 100 32К 32К 256Кк 32 мӣ 
АзАР 167 1280 1289 
С5Х700 192 6к 
Таггабее го 32 64К 256К 
С80 128 5К з2к® 
Мірѕ32 1004к 4 8-64 К 8-64 К 
хр832 8 64к 32к 512к 8 М(5) 
АЕМ 11 МРСоге 4 16К 16К 
те 16К 16к 
АРМ Соцех-А5 
МРСоге 16К 16К 
Се] Воафапа 9 16К 16К 512к2 
АМР Орќегоп 4/6/12 64К/64К/128К 512К/512К/512К ИТ. 
Зо Ота брак дедд 16к вк 4м 


Т2 
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Т2 4/6/8 16к 8К 4м 
це] Согеі7 4/8 32К 32К 256Кк вм10 
18918Мз 2 16К 32к 512 МШ 
МС-12 
2 16К 
(1892ВМЗТ) 
МС-24 2 16К 
МС-0226) З 16К 
МУСот-01 3 16К 
МС-0428 5 


В плане управления энергопотреблением процессора интересны 
разработки компании Ш], направленные на реализацию метода 
динамического регулирования интенсивности выполнения инструкций 
(Епегру Рег Іпѕітисіюп — ЕРІ) в зависимости от степени параллелизма 
программы. Была показана эффективность регулирования тактовой 
частоты в асимметричной мультипроцессорной системе в зависимости 
от уровня активности вычислительных ядер. 


Можно выделить несколько схем управления энергопотреблением 
многоядерных процессоров, реализуемых на данный момент: 


перевод неактивных ядер в состояние низкого энергопотребления; 
® изменение тактовой частоты ядер в зависимости от их 

активности; 

изменение напряжения питания процессора или отдельных ядер; 

изменение тактовой частоты процессора; 

изменение и напряжения, и тактовой частоты ядер процессора, 


Основной подход к организации многопоточности ядер — параллелизм 
на уровне потоков (уменьшение времени простоя из-за ожидания 
данных из памяти или загрузка. различных исполнительных блоков 
процессора) в сочетании с параллелизмом на уровне инструкций 
(параллельное исполнение нескольких команд за цикл), 


Рассматривая многоядерные процессоры (тапу-соге), в итоге можно 
выделить два направления, по которым на данный момент идет 
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Первое: специализированные многоядерные процессоры — 
процессоры с относительно простыми ядрами небольшой разрядности, 
с эффективной системой управления энергопотреблением, Как правило, 
они нацелены на применение в качестве контроллеров в сенсорных 
системах, мобильных устройствах и устройствах с автономным 
питанием, для первичной цифровой обработки сигналов. Ключевые 
свойства процессоров этого направления —Й низкое удельное 
энергопотребление ядер; возможности полного останова ядер; 
небольшое количество инструкций, поддерживаемых ядром; отсутствие 
кэш-памяти, На сегодняшний день наиболее яркие представители этого 
направления — процессоры семейств ЗЕАЮНЬ, АзАР. 


Второе направление: многоядерные процессоры общего назначения — 
их ядра по сложности приближаются к ядрам процессоров общего 
назначения, имеют развитую систему кэш-памяти, 
высокопроизводительную систему связей между ядрами. Круг 
применений данных процессоров шире — бортовые вычислительные 
системы, системы, обслуживающие сетевые приложения, обработка 
мультимедийных данных и сигиалов, высокопроизводительные 
кластеры, Ко второму направлению можно отнести процессоры 
семейств ТИе и СЅХ, 


Общнм для многоядерных процессоров пока остается поддержка их 
ядрами одного потока выполнения (хотя в процессорах Те и 
присутствует параллелизм на уровне инструкций), 


Среди мультиядерных процессоров (тиш-соге) стоит выделить 
следующие направления, 


Первое — асимметричные процессоры со специализированными 
ядрами. Сочетают в себе ядро общего назначения и ядра сигиальных 
процессоров. Вполне возможно, в будущем к сигнальным ядрам могуг 
добавиться и криптографические модули — для аппаратной поддержки 
коммуникационных функций. Пока к данному направлению можно 
отнести процессоры Сей, процессоры серии "Мультикор". 


Второе направление включает в себя процессоры для мобильных 
устройств. Процессоры этого направления имеют развитую шинную 
систему, низкое энергопотребление. Наиболее яркие представители — 


АВМ Согіех-А МРСоге, МІР532 1004К. 
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систему, низкое энергопотребление. Наиболее яркие представители — 
АВМ Сопех-А МРСоге, МІР532 1004К. 


Третье направление — многопотоковые (в некоторых источниках — 
мультитредовые) мультиядерные процессоры. Высокоинтегрированные 
процессорные системы — "системы (серверы) на кристалле”). В 
развитии данного направления, скорее всего, следует ожндать 
сближения "обычных" мультиядерных и графических процессоров, 
расширения поддержки виртуализации процессоров, увеличения 
количества одновременно поддерживаемых потоков. К третьему 
направлению можно отнести графические процессоры, процессоры 
фирм АМР, Іпе!, бип (Огасіе), процессоры серии ХІР. 


Краткие итоги 


В развитии многоядерных процессоров (тапу-соге) можно выделить два 
направления: 


• специализированные многоядерные процессоры — процессоры с 
относительно простыми ядрами небольшой разрядности, с 
эффективной системой управления энергопотреблением; 


• многоядерные процессоры общего назначения — их ядра по 
сложности приближаются к ядрам процессоров общего 
назначения, имеют развитую систему кэш-памяти, 


высокопроизводительную систему связей между ядрами, 


Среди мультиядерных процессоров (тшћі-соге) стоит выделить 
следующие направления: 


асимметричные процессоры со специализированными ядрами; 
процессоры для мобильных устройств; 

многопотоковые (в некоторых источниках — мультитредовые) 
мультиядерные процессоры, представляющне по сути высокоин- 
тегрированные процессорные системы — "системы (серверы) на 
кристалле", 


Основные схемы управления энергопотреблением многоядерных 
процессоров, реализуемые на данный момент: 
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активности; 

изменение напряжения питания процессора или отдельных ядер; 
изменение тактовой частоты процессора; 

изменение и напряжения, и тактовой частоты ядер процессора. 


Основной подход к организации многопоточности ядер — параллелизм 
на уровне потоков (уменьшение времени простоя из-за ожидания 
данных из памяти или загрузка различных исполнительных блоков 
процессора) в сочетании с параллелизмом на уровне инструкций 
(параллельное исполнение нескольких команд за цикл), 


Контрольные вопросы 


1. Каковы основные направления развития процессоров? 
2. Ядра каких процессоров имеют аппаратную поддержку 


нескольких потоков исполнения? 


3. Какие методы управления энергопотреблением наиболее часто 


применяются в современных процессорах? 


Упражнения 


Э] 
2 
3) 
4) 
5) 
6 
7) 
8) 
9 


1. Оцените эффективность различных схем управления 


энергопотреблением процессоров. 


2. Сравните показатели производительности многоядерных и 


мультиядерных процессоров. 


локальная оперативная память 

распределенный по ядрам процессора 

распределенный по ядрам процессора 

локальная оперативная память 

локальная оперативная память 

6 разделяемых блоков 

имеется только у РРЕ, 5РЕ-ядра имеют локальную память 
разделяемый всеми ядрами 

разделяемый всеми ядрами 


10) разделяемый всеми ядрами 
М) распределенный по ядрам процессора 


Е 
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Приемы и технологии программирования 
многоядерных процессоров 


В лекции дается краткая характеристика проблем, возникающих при 
параллельном программировании и при программировании 
многоядерных процессоров, в частности. Кратко описаны основные 
модели программирования многоядерных процессоров, лежащие в 
основе различных инструментов разработки и управлении 
процессорными ядрами в операционных системах. 


Проблемы параллельного программирования 


При переходе с одноядерных процессоров на многоядерные системы 
приходится принимать во внимание проблему последовательного 
выполнения. В многоядерной системе выполнение считается 
последовательным, когда одно или более ядер в какой-то момент не 
могут выполнять код параллельно с другими ядрами. Эта ситуация 
может возникнуть по разным причинам; ситуации блокировки при 
доступе к ресурсам, необходимость синхронизации процессов или 
потоков на различных ядрах, поддержание когерентности кэш-памяти 
и неравномерность загрузки [90]. 


Блокировки возникают из-за невозможности одновременного доступа 
приложений на разных ядрах к таким ресурсам, как жесткий диск, 
некоторые устройства ввода/вывода, прикладные данные в 
определенных ситуациях (например, в момент "сборки мусора"). 


Программист, пишущий физически параллельную программу, 
обязательно должен иметь представление о следующих вещах; 


взаимные блокировки параллельных участков; 

несинхронный доступ, или гонки ; 

возможность зависания параллельных участков; 

опасность использования сторонних процедур и библиотек; 
набор специализированных средств отладки физически 
параллельных программ; 

нелокальный характер ошибок; 

•е динамический характер ошибок и, как следствие, влияние средств 
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отладки программ на корректность исполнения последних. 


Очень часто параллельные процессы, выполняемые на разных ядрах, 
должны синхронизироваться в определенные моменты времени. 
Например, приложение на одном из ядер должно использовать 
промежуточные данные, которые получаются приложением (потоком, 
процессом) на другом ядре. Первое приложение не может продолжать 
работу до тех пор, пока не получит эти данные, то есть должно 
находиться в состоянии ожидания до их получения, В этой ситуации 
появляются накладные расходы на синхронизацию приложений 
(процессов, потоков), выполняемых на разных ядрах, Это, в свою 
очередь, ведет к понижению эффективности от использования 
параллельной работы, что находит отражение в так называемом сетевом 
законе Амдала, 


При переходе на многоядерную архитектуру возникает необходимость 
поддержания когерентности (согласованности) кэш-памяти для всех 
ядер при использовании так называемой разделяемой памяти (знаге4 
тетогу). Для ускорения доступа к разделяемой памяти может 
применяться кэш-память, Теперь в дополнение к поддержанию 
когерентности между основной памятью и кэш-памятью каждого 
отдельного ядра (с помощью методов мтйе (гоџећ, иле БасК и других) 
необходимо в каждый момент времени поддерживать когерентность 
основной памяти и кэшпамяти всех ядер, использующих эту 
разделяемую память при любых операциях чтения-записи. Как 
правило, эта проблема решается на аппаратном уровне, 


Параллельная обработка имеет две разновидности: конвейерность и 
собственно параллельность. В том и другом случаях предполагается 
архитектурное вычленение из системы отдельных физических 
компонентов, 


Идея конвейеризацич заключается в разбиении операции на 
последовательные этапы длительностью в такт с последующей 
реализацией каждого из них отдельным физическим блоком. Если 
организовать работу таких блоков в виде конвейера (каждый блок, 
выполнив работу, передает результат вычислений следующему блоку и 
одновременно принимает новую порцию данных), то получится 
очевидный выигрыш, 
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Идея распараллеливания еще проще. Ее можно пояснить с помощью 
простой аналогии: если одному рабочему требуется 10 часов на 
изготовление 10 деталей, то 10 рабочим для этого нужен всего час. К 
сожалению, несмотря на мощь и простоту идей физического 
параллелизма, установка 10 вычислительных модулей вместо одного не 
означает десятикратного увеличения вычислительной мощиости 
системы. Если в задаче нельзя выделить участки, допускающие 
параллельную обработку, или массив однотипных операндов для 
конвейеризации, то сократить время ее выполнения не удастся, 


Кроме конвейеризации и физического распараллеливания используются 
следующие методы: 


• специализация (применение внутри процессоров блоков, 
оптимизированных под определенный вид вычислений, 
например математических сопроцессоров); 
кэширование; 
спекулятивные вычисления. 


Среди основных проблем, связанных с переходом на многоядерные 
платформы и многопоточные вычисления, можно выделить 


следующие. 


Архитектурные усовершенствования привели относительно 
однородную ИТ-индустрию к грани разделения на более мелкие 
области, Это вызвано тем, что физическое распараллеливание не 
работает в произвольном классе задач: увеличение разрядности 
процессора, применение гиперпотоковости (Нурег-Тһтеайіпд) и 
многоядерности могут дать эффект, противоположный ожидаемому, т. е. 
после распараллеливания время исполнения программы даже 
увеличится, 


Не всякая задача допускает физическое распараллеливание [6]. Целые 
классы задач (например, быстрое Фурье-преобразование, обработка 
запроса к базе данных, быстрые алгоритмы сортировок и т. п.) не 
получают заметного выигрыша от распараллеливания либо не 
распараллеливаются в принципе, У разработчиков появляется 
альтернатива — вместо изменения структуры программы уделять 
больше внимания локальной оптимизации кода. До некоторого предела 
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это окажется рабочим вариантом, причем будет поддержано ростом 
интереса к средствам разработки, ориентированным на 
высокоскоростное исполнение в рамках однопроцессорной архитектуры 
(89, 90]. 


Возникает проблема совместимости старых библиотек, написанных для 
однопроцессорных архитектур. Если библиотеки физически не 
поддерживают параллельное исполнение, то распараллеливание 
алгоритма может привести к ошибке, Не случайно Пие| расширяет 
программистскую составляющую своей деятельности, в частности — 
для создания безопасных библиотек, которые предполагают и гибкую 
настройку на конкретную вычислительную платформу По-видимому, в 
ближайшем будущем речь пойдет о динамически реконфигурируемых 
библиотеках, конечный вид которых будет определяться при загрузке 
задачи и выявлении текущей топологии системы, 


Не вполне ясен вопрос объектно-ориентированного программирования; 
нет исследований по совместимости объектно-ориентированного 
программирования с многоядерной архитектурой процессора, Текущий 
стандарт 150 на Си++ обходит стороной физический параллелизм (Пие] 
пишет специализированные библиотеки на "чистом" Си). 


Вполне возможно, что определенное полезное использование 
многоядерной архитектуры без реинжиниринга старых программ 
операционные системы могут обеспечить на уровне задач (в частности 
— применение технологий виртуализации). Однако в силу небольшого 
числа задач такой подход имеет вполне естественные ограничения. 


Необходимо отметить видимые преимущества микроядерных 
архитектур ОС, которые (в отличие от монолитных, 
оптимизированных для однопроцессорных систем) допускают 
физическое распараллеливание. 


Главной тенденцией программирования в ближайшее время станет 
создание новых языков и техник, совмещающих удобство разработки и 
физический параллелизм исполнения, Этого удастся добиться только за 
счет решения вопросов, связанных с физическим параллелизмом. 
Существующие решения типа рітеай и ОрепМР можно расценивать 
лишь как паллиатив. Ручное управление физическим параллелизмом 


(ехрйсй рагаПейзт) отбрасывает программирование назад, в эпоху 
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машинных кодов и ассемблеров, реанимирув привязанность структуры 
программы к физической архитектуре вычислительной платформы. 
Следует сказать, что для встраиваемых систем, особенно связанных с 
обработкой сигналов, мультимедийной информации, так называемых 
"зоймате гайіо" систем и для других подобных задач ручное 
распараллеливание дает неплохие результаты, Это возможно благодаря 
использованию конфигурируемых программных модулей, привязанных 
к определенному ядру или группе ядер, благодаря связке компиляторов 
для многоядерных процессоров со средами визуального 
программирования и средствами визуального представления процессов 
(например, ГаБ Уіем, Кайіопа] Варзоду). 


Автоматическое распараллеливание (ітрісії  рагаНейзт) для 
многоядерных архитектур в большинстве случаев обеспечивает 
ускорение лишь с некоторой вероятностью. Промежуточным решением 
могут быть реконфигурируемые библиотеки (Пиергае@ Регіогтапсе 
Ргітііуеѕ, Ма Кегпе/ ТАЬгагу), 


Наиболее перспективны языки и техники, которым естественно присущ 
логический параллелизм, независимость или слабая зависимость 
компонентов друг от друга. В первую очередь речь идет о 
многозадачном логическом параллелизме, Явный недостаток 
многозадачности состоит в том, что практически нереально придумать 
убедительный случай загрузки персонального компьютера достаточным 
количеством (десятком и более) действительно ресурсоемких задач, 


Другая возможность — попытаться адаптировать к многоядерным ар- 
хитектурам существующие техники и языки многопоточной 
организации программ, Опыт применения языка Рефлекс в 
многопроцессорных системах показывает, что такое вполне допустимо. 
Правда, появляющиеся при этом сущности означают достаточно 
радикальное изменение программ на уровне машинных команд. 
Например, происходит очевидный отказ от использования стека при 
организации структуры программы. При создании программ меняется и 
восприятие процесса программирования; классические функции 
дополнены процессами, которые при их запуске порождают отдельный 
независимый поток команд и данных [90, 91]. 


Существуют проекты, нацеленные на создание языковых средств и 
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методик обеспечения переносимых параллельных программ. Например, 
проект "Пифагор", цель которого — обеспечить разумный компромисс 
между быстродействием алгоритма и приемлемым уровнем его 
сопровождаемости (эволюционная расширяемость, переносимость, 
платформенная независимость). Однако этот подход имеет свои 
особенности: программирование предполагает применение 
функционального языка, что непривычно для большинства 
практикующих программистов. 


При разработке параллельных программ в рамках модели параллелизма 
задач используются специализированные библиотеки и системы 
параллельного программирования, такие, как РУМ, ТАМ и некоторые 
другие, Наметилось три основных подхода к реализкции этих систем, 
отличающихся методами взаимодействия параллельных задач, Один 
подход строится на основе концепции обмена сообщениями, второй — 
на задействовании разделяемой памяти. Третий подход — на основе 
стандарта РОЅІХ — объединяет два предыдущих. 


Наиболее известным представителем первой группы является 
спецификация МРІ (Меѕѕаде Раѕѕіпд Імегѓасе) для языков 
программирования С и Фортран, первый вариант которой был 
разработан в 1994 году Спецификация МРІ включает около 200 функций 
и реализована для множества компиляторов и операционных систем. 
Одной из наиболее распространенных реализаций МРІ является 
библиотека МРІСН. Кроме того, на рынке представлены несколько 
коммерческих реализкций МРІ, например, МРИРго производства 
компании Мегагі $уѕіетѕ Ѕоўмате (ссылка; Мр/^уги.уегагісош), МРИРго 
оптимизирует время работы параллельных приложений, обеспечивает 
их масштабируемость, осуществляя балансировку параметров 
производительности и использования ресурсов. Компания Мегагі 
предлагает версии МРИРго для различных операционных систем, 
включая \У/омз, Гишх, Мас 0$ Х, ІупхОЅ, а также таких 
интерконнектов, как Сірађі Ефегпе, Мугіпеї и ЇпўћпіВапа. 


Представителем второй группы является спецификация ОрепМР (Ореп 
ѕресійсайопѕ юг МШН-Ргосеѕѕіпр). Первая версия спецификации ОрепМР 
(ссылка: һару^ғуғә.орептр.оге) появилась в 1997 году и предназначалась 
для языка программирования Фортран, У истоков ОрелМР стояли такие 
известные компании, как ІВМ, Пие|, Ѕип и Немен-РаскКага. В 1998 году 
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появились варианты ОрепМР для языков С/С++, и к настоящему 
моменту последней является версия 2.5. Поддержка спецификации 
ОрепМР имеется во всех компиляторах Іпіе! (начиная с шестой версии), 
в Мктозой С/С++ (начиная с Убѕџа] Зшаю 2005), в ССС. Очень 
интересна сама концепция ОрепМР как набора специальных директив 
компилятору (ргадта), библиотечных (АРІ) функций и переменных 
среды. Наиболее оригинальны здесь ргадта-директивы компилятору. 
Они используются для обозначения областей (геріопѕ) в коде и могуг 
выполняться параллельно, Компилятор, поддерживающий ОрепМР, 
преобразует исходный код и вставляет соответствующие вызовы 
функций для выполнения этих обла стей кода параллельно. 


Третьим широко используемым стандартом, который применяется для 
реализации параллельных вычислений, является РОЅІХ (РоцаБе 
Орегаёав будет іпіегјасе Юг шШХ — переносимый интерфейс 
операционных систем на уровне исходных текстов). Первое описание 
РОЗТХ (ссылка; һір//ғуғм,раѕс.огв) было опубликовано в 1986 году 
Основная спецификация разработана как ТЕЕЕ 1003,1 и одобрена как 
международный стандарт 1ЗОЛЕС 9945-1:1990. С точки зрения 
организации параллельных вычислений наибольший интерес 
представляют три части стандарта: 1003.1а (0$ Ребпібоп), 1003.15 
(Веабте Ехѓепѕіопѕ) и 1003.1с (Теа). В рамках РОЅІХ возможно 
реализовать параллельные вычисления как на основе обмена 
сообщениями аналогично МР, так и на основе разделяемой памяти, как 
в ОрепМР, Естественно, в РОЅІХ возможна и любая комбинация этих 
методов. В настоящее время в наибольшей степени стандарту РОЅІХ 
соответствуют (сертифицированы) две ОСРВ: ГупхО$ компании 
Тупихуогкѕ (ссылка; ћир //^гуғ Јупихмогкѕ,сот) и Пиевгйу компании Сгееп 
НИБ (ссылка; Вір//^гуғм,рһѕ,Сот). 


При программировании многоядерных процессоров могут применяться 


модель выгрузки функций; 

модель ускорения вычислений; 

потоковые модели; 

модель мультипроцессора с разделяемой памятью; 
модель ассиметричных потоков. 
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Модель выгрузки функций (ЕлпсНоп оНоа@ тое) 


Модель выгрузки функций является наиболее простой в реализации, 


Программист явным образом указывает, какие функции на каких ядрах 
должны выполняться, — физически параллельная система, 


Простота идеи программирования физически параллельных систем 
выливается на практике в целый ряд сложных методик и условий. 


1. Алгоритм должен допускать распараллеливание. 

2. При вычленении параллельных участков, как правило, приходится 
придавать алгоритму специальную форму Например, если 
необходимо определить сумму массива, при распараллеливании 
на первом шаге одновременно суммируются соседние четные и 
нечетные элементы массива, а на втором попарно суммируются 
результаты, полученные на первом шаге, и т, д. Компактно 
записать параллельный вариант на языке Си невозможно. В 
общем случае приведение алгоритма к форме, позволяющей 
сократить время вычислений, означает отход от формы, 
обеспечивающей наиболее наглядное представление. 

3. В многопроцессорной системе разбиение на слишком крупные 
части не позволяет равномерно загрузить процессоры и добиться 
минимального времени вычислений, а излишне мелкая "нарезка" 
означает рост непроизводительных расходов на связь и 
синхронизацию. 

4. Физическому параллелизму присуща зависимость глобальной 
структуры алгоритма от топологии вычислительной платформы. 
Процесс создания максимально эффективного алгоритма 
практически не автоматизируется и связан с большими 
трудозатратами на поиск специфической структуры алгоритма, 
оптимальной для конкретной топологии целевой системы. 
Найденная структура обеспечит минимальное время получения 
результата, но, скорее всего, будет неэффективна для другой 
конфигурации. Более суровое следствие зависимости структуры 
алгоритма от вычислительной платформы —— тотальная 
непереносимость не только исполняемых кодов, но и самого 
исходного текста. 
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Физический параллелизм предназначен для получения результата по 
входным данным за кратчайшее время, 


Модель ускорения вычислений — (сотршабопа| 
асс@егаНоп) 


Эта модель является развитием предыдущей модели, более гибкой по 
сравнению с моделью выгрузки функций. 


Выделяются одно или несколько управляющих ядер, остальные ядра 
выполняют наиболее вычислительно емкие участки кода программы. 
Необходимо распараллеливать программу и данные, организовывать 
эффективный обмен кодом и данными между ядрами. 


Задача с уникальным набором данных и функций достаточно 
тяжеловесна для вызова и обслуживания. Многозадачный логический 
параллелизм предполагает небольшое количество задач (обычно в 
пределах одного десятка). Между тем существуют области, в которых 
необходим "мелкозернистый" логический параллелизм — разбиение 
задачи на множество небольших независимо исполняемых частей. В 
серверах баз данных, на новостных порталах, в мобильных сервисах, 
которые обслуживают распределенные системы, предназначенные для 
нескольких сотен тысяч абонентов, требуется механизм независимого 
обслуживания тысяч одновременно поступающих запросов, В таких 
системах надо не только не пропустить поступивший запрос, но и 
обслужить его, возможно, организовав интерактивный диалог, контроль 
над достоверностью и перезапрос информации в случае ошибки, 


"Мелкозернистый" логический параллелизм эффективен в задачах 
управления сложным промышленным оборудованием, Необходимость 
отражения параллелизма процессов, осуществляемых на объекте 
управления, требует создания по меньшей мере сотни параллельно 
исполняемых процессов, Например, эквивалентное монолитное 
решение в виде одного процесса, предназначенное для управления 
выращиванием монокристаллического кремния [90], приводит к 
рассмотрению 1030 различных ситуаций, Сжатие информации 
достигается при логическом параллелизме за счет упрощенного 
описания комбинаций независимых случаев; описание алгоритма как 
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набора независимых частей — это описание суммы ситуаций, а 
монолитное описание — это описание произведения ситуаций. 
Невообразимое число ситукций (1030) можно получить лишь из сотни 
параллельно исполняемых компонентов с двумя состояниями, в то 
время как независимое описание алгоритма подразумевает 
рассмотрение всего 200 уникальных случаев, 


Основными целями логического параллелизма являются сокращение 
времени разработки, упрощение создания, эксплуатации и, в общем 
случае, сопровождения программных систем, В том и другом случаях 
предполагается выделение участков алгоритма, допускающих 
независимое или слабо зависимое исполнение. 


Потоковые модели (Ѕігеатіпа гпойе15) 


Преимущества "мелкозернистого" логического параллелизма заставляют 
искать пуги снижения накладных расходов, присущих многозадачности. 
Известные решения для операционных систем — легковесные 
процессы (Їідћі-меідћ рғосеѕѕ). Так, в Ѕип ОЅ 5.х имеется облегченный 
вариант задач — потоки (теа), состояние которых полностью 
характеризуется значениями указателей на код и стек, Переключение 
процессора на поток минимизировано вплоть до операций сохранения/ 
восстановления этих указателей, Планировщик попрежнему 
присутствует и активизируется по прерываниям от таймера [90], 


Переключение потоков по времени не всегда удобно и приводит к 
непроизводительным простоям процессора, Если в потоке для 
продолжения вычислений требуется внешнее событие (отклик 
оборудования, реакция абонента на запрос, подтверждение успешиой 
передачи сообщения), то поток "честно" тратит отведенное ему время на 
ожидание; 


$(ер1(); /* действие */ 
ме (!ЕуешОпЅіер1()); /* ожидание реакции на действие */ 
8$(ер2(); /* следующее действие */ 


Если для реакции на действие требуется значительное время (например, 
событие — это реакция пользователя на запрос системы), то более 
приемлемая стратегия — передача управления после опроса. Этот 
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подход используется при организации многопоточности методом 
циклического опроса (тоипа-гоБт), который иногда обозначают 
термином "корпоративная многозадачность" (довольно часто такая 
модель многопоточности реализуется в некоторых системах реального 
времени, в некоторых версиях языка Форт). При циклическом опросе 
потоки могуг быть представлены просто функциями, которые 
опрашиваются в бесконечном цикле; 


Мањ) 

Юг (;;) { 
фгеад_1(); 
фгеад_2(); 
геад №); 
} 

} 


Необходимость ожидания внешией реакции естественным образом 
задает разбиение потоков на части, любая из которых является 
простейшей функцией, Если присвоить каждой части какое-либо число, 
то реализация потоков естественным образом будет выражаться в 
терминах языка Си, По историческим причинам простейшие функции 
называют "состояниями", 


еза 1 () { 

улс (5 аіе 1) { 

саѕе ЅТАТЕ 1: 

$(ер1(); /* действие */ 

#(ЕуепОпЅ1ер1()) Ѕїаге і = ЅТАТЕ 2; /* смена состояния */ 
Ъгеак; 

саѕе ЅТАТЕ 2; 

$(ер2(); /* следующее действие */ 

} 

} 


Таким образом, при многопоточности можно минимизировать или 
даже полностью исключить накладные расходы, присущие 
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многозадачности, Простота организации делает многопоточность 
привлекательной для обеспечения "мелкозернистого" логического 
параллелизма с гранулярностью на уровне нескольких инструкций. 
Получаемый выигрыш компенсирует риск возможных ошибок (которые 
могут возникиуть, например, из-за работы с общей областью данных). 
Мало того, эти риски можно полностью исключить за счет применения 
соответствующих механизмов. 


В языке Рефлекс (диалект языка Си, предназначенный для описания 
алгоритмов управления) безопасность и невозможность разрушения 
программы языковыми средствами обеспечены на концептуальном 
уровне, В этом языке синтаксис и семантика Си расширены за счет 
понятия процесса — параллельно исполняемого участка кода, 
допускающего запуск, остановку и проверку своего состояния [90, 91]. 
Автоматизированы рутинные операции, связанные с организкцией 
параллелизма, и пользователь может полностью сосредоточиться на 
собственно алгоритме. Возможность обращения по произвольному 
адресу исключена, Переменные языка типизированы. При таком подходе 
конфликты памяти попросту невозможны, 


Например, приложение, разработанное для выполнения на процессорах 
с технологией Нурег-Тһтеайіпд, сразу получит преимущества от 
использования на двухьядерных процессорах, т. к, в нем уже 
предусмотрены два потока. В идеале при проектировании приложений 
необходимо предусматривать возможность создания максимального 
числа потоков в зависимости от количества и возможностей 
процессоров. Если программа может использовать дополнительные 
потоки, которые предоставляет технология Нурег-Тйгеа4тд или 
многоядерность, ее производительность будет напрямую зависеть от 
количества процессоров. 


Если при разработке программы предусмотрено создание 
максимального количества потоков, возможных для нее, то по мере 
добавления новых ядер программа будет работать более быстро и 
эффективно. Принцип независимости количества потоков от количества 
реально имеющихся ядер позволяет Создавать приложения, 
рассчитанные на перспективу, ускорить окупаемость инвестиций, 
сократить затраты и продлить жизненный цикл ПО. 
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Разработчики ПО столкнутся с различными проблемами; с 
необходимостью создания масштабируемых приложений, освоения 
новых методов отладки и написания кода, допускающего поддержку. В 
целом им придется использовать больше абстракций, чтобы избежать 
явной привязки к потокам, Большинству поставщиков 
инструментальных средств разработки следует уделять особое внимание 
этому вопросу Абстракции, такие как библиотеки, ОрейМР и 


многопоточные компоненты ше] @ Тугеа@ ще ВюсКз, очень важны для 
практической реализации масштабируемости. Наконец, разработка 
приложений связана с такими проблемами, как вероятность 
возникиовения взаимоблокировки и ошибки синхронизации (известных 


как общие ошибки параллельного программирования). ие] @ Теа 
Сһескег помогает бороться с такими опасностями. В качестве 
положительного факта необходимо заметить, что инструментальные 
средства постоянно развиваются, и скоро их поставщики найдуг 
способы дальнейшей поддержки параллельного программирования. 
Разработчики инструментальных ср едств для параллельного 
программирования и адаптации имеющихся приложений должны 
понимать проблемы, связанные с масштабируемостью, отладкой и 


поддержкой кода, 


Модель мультипроцессора с разделяемой памятью 
(ѕһагеа-тетогу пли] Яргосе$5ог гпойеІ) 


В мульгипроцессорах с общей памятью (сильносвязанных 
мультипроцессорах) имеется память данных и команд, доступная всем 
ПЭ. С общей памятью ПЭ связываются с помощью общей шины или 
сети обмена, В противоположность этому варианту в слабосвязанных 
многопроцессорных системах (машинах с локальной памятью) вся 
память делится между процессорными элементами и каждый блок 
памяти доступен только связанному с ним процессору. Сеть обмена 
связывает процессорные элементы друг с другом, 


Базовой моделью вычислений на МІМР-мульгипроцессоре является 
совокупность независимых процессоров, эпизодически обращающихся к 
разделяемым данным. Существует большое количество вариантов этой 
модели. На одном конце спектра — модель распределенных 


вычислений, в которой программа делится на довольно большое число 
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параллельных задач, состоящих из множества подпрограмм. На другом 
конце спектра — модель потоковых вычислений, в которых каждая 
операция в программе может рассматриваться как отдельный процесс. 
Такая операция ждет своих входных данных (операндов), которые 
должны быть переданы ей другими процессами. По их получении 
операция выполняется, и ее результат передается тем процессам, 
которые в нем нуждаются, В потоковых моделях вычислений с большим 
и средним уровнем гранулкрности процессы содержат большое число 
операций и всегда выполняются в потоковой манере. 


Модель ассиметричных потоков (аѕуттпеігіс (һгеаа 
гшхіте по!) 


В то время как существующие массовые решения основаны на 
размещении в одном процессоре нескольких идентичных ядер, вполне 
очевидно, что в будущих разработках будут задействованы различные 
типы ядер на одном процессорном кристалле, 


Данный подход обычно именуется асимметричной или неоднородной 
многоядерной архнтектурой. Хотя эти термины имеют синонимичное 
значение, при описании программного обеспечения чаще используется 
термин "асимметричный" (что указывает на способ работы 
программного обеспечения с аппаратной архнтектурой), а 
применительно к оборудованию чаще используется термин 
"неоднородный" (поскольку он более точно описывает собственно 


физическую архнтектуру) [95]. 


Модель ассиметричных потоков является расширением широко 
распространенной модели многопоточности на случай вычислительных 
модулей с различной архнтектурой инструкций. 


К примеру некоторые ядра не поддерживают аппаратную смену 
контекста, поэтому на них нельзя организовать вытесняющую 
многозадачность (ргеетрбуе шийиИазКие). На таких ядрах возможно 
применять модель работы потока до завершения (гип-(о-сотріейоп 
пю4е), а также кооперативную многозадачность (соорегануе тли 5Ке). 


Возможным путем увеличения производительности в рамках 


микроархитектуры заданного размера является создание конфигураций 
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из неоднородных ядер, обладающих различными функциональными 
характеристиками и быстродействием. Чтобы осознать эффективность 
такого решения, представим себе ситуацию, когда в одном процессоре 
содержится несколько крупных ядер с высокой последовательной 
производительностью и множество более мелких и менее 
производительных ядер. 


В данном случае крупные ядра будут лучше приспособлены для работы 
с ресурсоемкими последовательными задачами, в то время как 
множество более мелких ядер обеспечит высокую производительность 
для задач с болышим количеством параллельных потоков. Подобное 
сочетание позволит достичь более высокой средней концентрации ядер 
на площади кристалла (по сравнению с расположением однородных 
ядер), а возможность выделять те или иные комбинации ядер для 
обработки определенных нагрузок поможет добиться большей 
пространственной эффективности =. и повышенной 
производительности, 


При распределении нагрузок между аппаратными ресурсами уход от 
принципа "один размер для всех" дает несомненные преимущества, 
поскольку для одних нагрузок производительность ядер может иметь 
большее значение, чем для других. Например, требующие большюго 
объема вычислений задачи уровня приложений лучше передать самому 
мощиому процессорному ядру, в то время как другие задачи, связанные с 
вводом-выводом или доступом к памяти, могуг без существенных 
потерь выполняться на менее производительном ядре. 


В том случае, если менее ресурсоемкие задачи выполняются на менее 
производительных ядрах, общая производительность, как отношение 
задействованных ресурсов процессора, будет выше. Таким образом, 
процессор в целом будет демонстрировать большее быстродействие. 
Кроме того, выделение ресурсов с учетом требований тех или иных 
задач обеспечивает более эффективное использование потребляемой 
энергии в целом, 


Программное обеспечение может учитывать только способность ядра 
выполнить определенный объем вычислений за большее или меньшее 
время. В данном примере в программном обеспечении не принимаются 
в расчет другие факторы, в частности, поддерживает ли то или иное 


327 


Калачев А.В 'Многоядерные процессоры 


ядро определенные функции. 


Функциональная асимметрия между процессорными ядрами также 
может выражаться в различиях на уровне архитектуры набора команд 
(Іпѕітисбоп Зее Агсійесіше, 15А). В процессоре могут присутствовать ядра 
общего назначения с различиями в поддержке определенных наборов 
команд; например, в целях уменьшения сложности и размеров 
кристалла имеет смысл предусмотреть ядра с поддержкой набора 
команд 85Е4 наряду с более простыми ядрами, не имеющими такой 


поддержки. 


Другие виды функциональной асимметрии могуг заключаться во 
всевозможных различиях логической архитектуры, с точки зрения 
регистров, типов данных, режимов адресации, архитектуры памяти, 
особенностей обработки исключений и прерываний, взаимодействия с 
внешними устройствами ввода-вывода. В противовес различиям в 
производительности подобные функциональные различия между 
ядрами должны быть соответствующим образом учтены в программном 
обеспечении, во избежание сбоев в процессе выполнения, Это может 
быть особенно актуально в тех случаях, когда функциональные 
особенности накладываются друг на друга, например, если некий набор 
ядер работает с общими типами данных и имеет общую архитектуру 
памяти, но при этом только часть ядер поддержнвает определенный 
набор команд. 


Во многих отношениях принципы программирования для 
функционально асимметричных многоядерных процессоров 
основываются на существующих наработках в области такого 
оборудования, как графические ускорители, программируемые 
логические матрицы (Е еЧ-Ргортатта е Сае Азтауѕ, ЕРСА), и 
специализированные интегральные схемы (Аррісабоп Ѕресійс Іміергаіей 
Сисийз, АЅІС), применяемые в качестве сопроцессоров. 


Поскольку традиционные операционные системы не поддерживают 
асимметричные ресурсы процессора, распределение задач между 
такими ресурсами вносит элемент непредсказуемости, что может 
ограничивать масштабируемость. С другой стороны, поиск решений для 
снижения такой непредсказуемости представляет собой перспективную 
возможность для поставщиков программного обеспечения, 
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В целях оптимального распределения нагрузки между асимметричными 
ядрами следует принять во внимание ряд соображений, В частности, 
потоки должны быть сопоставлены ядрам, которые поддерживают 
необходимые инструкции и обладают другими требуемыми 
характеристиками, Необходимо предусмотреть эффективные средства 
обработки ошибок на тот случай, если такая поддержка отсутствует. При 
использовании асимметричных аппаратных ресурсов также можно 
ожидать дополнительных трудностей, касающихся сбалансированности 
потоков в многопоточном программном обеспечении, так как 
определенному потоку могут быть назначены ресурсы различных типов, 
в зависимости от предъявляемых требований и приоритета, 


В целях преодоления этих и других трудностей специалистами Ние] @ 
Зучетз Тесһпоюру Габ был разработан АМРЅ — пакет средств 
асимметричной мультипроцессорной обработки задач, который 
улучшает производительность при выполнении задач на многоядерных 
процессорах, имеющих асимметрию на уровне производительности. 
Помимо повышения производительности АМРЅ также обеспечивает 
стабильное распределение потоков между соответствующими 
ресурсами по принципу приоритетности, позволяя добиться 
предсказуемых и воспроизводимых результатов. Следует отметить, что 
для работы с АМР$ не требуется вносить изменения в приложения, а 
для операционной системы Гіпих потребуются лишь незначительные 
изменения, что создает опытно-экспериментальную базу для 
реализации упрощенной поддержки асимметричного оборудования. 


АМР5 распределяет нагрузку между ядрами в соответствии с их 
индивидуальными характеристиками, назначая задачи таким образом, 
чтобы обеспечить высокий общий коэффициент полезного 
использования ЦП. В этом обработчике используется приоритезация по 
принципу "более быстрое ядро — в первую очередь", что помогает 
задействовать самые производительные из доступных ядер. В 
архнтектурах с неоднородным доступом к памяти (Моп-Опоги Метогу 
Ассез, МОМА) АМРЅ помогает преодолеть дополнительные 
затруднения, связанные, например, с миграцией потоков между 
неодинаковыми ядрами, соединенными с разными контроллерами 
памяти, По мере развития асимметричных многоядерных процессоров 
такие разработки, как АМРЅ, предоставят основу для создания 
программного обеспечения, поддерживающего эту технологию, 
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В рамках других подходов программную поддержку асимметричного 
оборудования предполагается реализовать на уровне приложения. Хотя 
такой подход повлечет за собой неизбежное усложнение стоящих перед, 
программистом задач, независимость от операционной системы может 
стать существенным преимуществом, например, в условиях среды с 
закрытым исходным кодом, В частности, архнтектура среды потоковой 
обработки множества команд (Мире Іпѕітисіюп Ѕітеат Ргосеѕѕіпр, МІЅР) 
позволяет программным путем представить процессорные ядра в 
качестве абстракций, которые могуг управляться прикладным 
программным обеспечением. Программная архитектура и модель 
программирования ЕХОСНІ расширяет возможности МІЅР, добавляя 
поддержку ядер, основанных на отличной от х86 архитектуре, а также 
предоставляя особую среду программирования С/С++ для реализации 
этих возможностей, 


Краткие итоги 


Основные моменты, требующие внимания при разработке 
параллельных программ; 


взаимные блокировки параллельных участков; 

несинхронный доступ, или гонки; 

возможность зависания параллельных участков; 

опасность использования сторонних процедур и библиотек; 
набор специализированных средств отладки физически 
параллельных программ; 

нелокальный характер ошибок; 

® динамический характер ошибок и, как следствие, влияние средств 
отладки программ на корректность исполнения последних, 


Параллельная обработка имеет две разновидности: конвейерность и 
собственно параллельность. Кроме конвейеризации и физического 
распараллеливания используются следующие методы; 


е специализация (применение внутри процессоров блоков, 
оптимизированных под определенный вид вычислений, 
например математических сопроцессоров); 

® кэширование; 
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спекулятивные вычисления. 


Основные модели программирования многоядерных процессоров — 
модель выгрузки функций, модель ускорения вычислений, потоковые 
модели, модель мультипроцессора с разделяемой памятью, модель 
ассиметричных потоков, 


Контрольные вопросы 


1. Какие существуют основные приемы и технологии 
программирования многоядерных процессоров? 

2. В чем состоит суть модели выгрузки функций (йисбоп оЯоаа 
тое]? 

3. Как устроена модель ускорения вычислений (сотршаНопа] 
ассёегайоп). 

4. Укажите основные черты потоковой модели (аеатае пюде]) 
программирования. 

5. Дайте характеристику модель мультипроцессора с разделяемой 
памятью (ѕћагей-тетогу пиНргосеззог гюйе!). 

6. Чем отличается модель ассиметричных потоков (азуттеше (ћтеай 
гопіте тойе]) от потоковой модели программирования ? 

Упражнения 
1. Оцените, какие из моделей программирования лучше подходят для 


процессоров из упомянутых выше, 
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Средства программирования многоядерных 
процессоров 


В лекции приводится краткое описание специализированных библиотек 
и расширений языков программирования, 


Специализированные библиотеки 


ие! Імергаіеа Регіогтапсе Ргітііеѕ 


ие! ІРР — это набор кросс-платформенных библиотек, содержащих 
большое количество высокопроизводительных функций, которые могут 
быть использованы для аудио- и видеокодеков (например, Н.263, 
МРЕС-4), сжатия изображений (ЈРЕС и ЈРЕС2000), обработки 
изображений (двумерных массивов), обработки сигналов (одномерных 
массивов или векторов), сжатия естественной речи, систем 
компьютерного зрения, криптографических приложений [96, 97]. 
Необходимость создания такого набора функций напрямую вытекает из 
современных реалий разработки прикладного программного 
обеспечения: 


• существует определенный набор вычислительно сложных 
функций, которые требуются для приложений; 

• разработчики вынуждены производить тщательную оптимизацию 
этих функций для получения необходимой производительности; 

4 процесс оптимизации сложен и занимает длительное время. 


Действительно, многим разработчикам требуется реализовать одну и ту 
же функциональность. А с ростом количества аппаратных платформ 
доля низкоуровневых (ассемблерных) реализаций уменьшилась 
значительно. Пи ІРР содержит набор низкоуровневых процедур, 
которые позволяют эффективно исполняться мультимедийным 
инструкциям на любом процессоре 


Примитивы в Пие! РР могут быть разделены на три основных группы 
по типу обрабатываемых данных; 


~ "сигналы" (термин условный и используется для обозначения 
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одномерных данных) (РР5); 
~ "изображения" (двумерные массивы цветовых данных) (ІРРТ); 
® матрицы небольшой размерности (массивы МхМ) (ТРРМ). 


Функции из Ние! РР, предназначенные для работы с небольшими 
матрицами, практически совпадают с функциями из Ние| Маф Кегпе] 
ТЬгагу (МКГ). Разница только в размерах матриц. Типичными 
размерами для Іпіе ІРР являются 3х1, 4х1, 5х1, 6х1, Мх1, 3х3, 4х4, 5х5, 
6х6, в то время как Ние] МКТ, больше подходит для работы с матрицами 
больших размеров. 


Существует также логический подраздел, отвечающий за 
криптографические операции (ІРРСР) и структурно входящий в первый 
домен. Независимо от того, в какой домен входит функция, она может 
быть классифицирована по степени специфичности, 


Каждая функция из Пе ІРР имеет несколько вариантов, 
оптимизированных под различные архитектуры процессоров. В Пи 
ІРР используются следующие типы оптимизаций: 


• оптимизация кода на С (рх); 

• оптимизация кода для процессоров ме] Репит Ш с 
использованием $ітеатіпр 51МР Ехіегѕіопѕ (аб); 

® оптимизация кода для процессоров ме] Репит 4 с 
использованием Ѕітеатіпр 51МР Ежепзю 2 (№7); 

® оптимизация кода для процессоров ме] Репішт 4 с 
использованием Ѕітеатіпе 51МР Ехіегѕіопѕ 3 ((7); 

® оптимизация кода для процессоров Пи] Хеоп с использованием 
ие] ЕМбАТ (7); 

• оптимизация кода для процессоров Іміе] Патит и Натит 2 (7). 


Существует четыре способа включения функциональности ие! ІРР в 
приложение; 


динамическая линковка; 

статическая линковка; 

смешанная линковка (продвинутая статическая); 
динамическая линковка с дополнительными возможностями, 
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Для эффективного исполнения на любом аппаратном обеспечении 
целесообразно использовать динамическую линковку В этом случае 
программа после запуска определяет процессор и подставляет в места 
вызова функций бинарный код из соответствующей библиотеки. 


При использовании статической линковки достигается меньший размер 
программы, но ценой жесткой привязки к типу процессора. Смешанная 
линковка по сути является статической, но при этом позволяет 
уменьшить размер исполняемого файла. 


ие! Маф Кегпе! ГЬгагу 


Библиотека Іле] Маф Кегпе! Г/Ьгагу (МКГ) представляет собой набор 
функций линейной алгебры, быстрого преобразования Фурье и 
векторной математики для разработки научного и инженерного ПО [96, 
97]. Она представлена в вариантах для УИпао\$ и Гіпих, есть версия для 
Г/пих-кластеров. Библиотеки МКГ. состоят из нескольких двоичных 
файлов, каждый из которых оптимизирован для определенного 
семейства процессоров Іле}, включая Іле] Иапит 2, Іме] Хеоп, Пе] 
Регішт Ш и Пие] Репбит 4. 


На стадии выполнения МКГ автоматически определяет модель 
процессора и запускает соответствующую версию вызываемой 
функции, что гарантирует максимальное использование возможностей 
процессора и максимально возможную производительность. 


Все библиотеки МКГ. поддерживают работу в многопоточном режиме, а 
ключевые функции ГАРАСК, ВГАЅ (третьего уровня) и дискретных 
преобразований Фурье (РЕТ) допускают распараллеливание по 
стандарту ОрепМР. 


Так как библиотека МКГ, максимально оптимизирована под процессоры 
корпорации Ш и учитывает их архитектуру использование 
компонентов библиотеки более предпочтительно, чем ручное 
написание кода, 


Рагаће] Ехіепѕіопѕ ю ће МЕТ Егагтеҹғогк 


Рагаће] Ехіепѕіопѕ іо ће ‚МЕТ Ргатемюгк (другие названия — Рага[е! ЕХ 
Ггагу, РЕХ) — это библиотека, разработанная фирмой Мкгозой для 
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использования в программах на базе управляемого (шапарей) кода, Она 
позволяет распараллеливать задачи, в которых могуг использоваться 
специальные, координирующие (соог@ пабе) структуры данных. Тем 
самым библиотека РЕХ упрощает написание параллельных программ, 
обеспечивая увеличение производительности при увеличении числа 
ядер или числа процессоров, исключая многие сложности современных 
моделей параллельного программирования. Первая версия библиотеки 
была представлена 29 ноября 2007 года, впоследствии выходили 
обновления в декабре 2007 и июне 2008 годов [100]. 


Рагае] Ехіепѕіопѕ обеспечивает несколько новых способов организации 
параллелизма. 


• Параллелизм при декларативной обработке данных. Реализуется 
при помощи параллельного интегрированного языка запросов 
(РЫМО) — параллельной реализации ММО. Отличие от ИМО 
заключается в том, что запросы выполняются параллельно, 
обеспечивая масштабируемость и загрузку доступных ядер и 
процессоров. 

• Параллелизм при императивной обработке данных. Реализуется 
при помощи библиотечных реализаций параллельных вариантов 
основных итеративных операций над данными, таких, как циклы 
Хог и Ќогеасһ. Их выполнение автоматически распределяется на все 
доступные ядра/процессоры вычислительной системы, 

• Параллелизм на уровне задач. Библиотека Рага№| Ехіегѕіопѕ 
обеспечивает высокоуровневую работу с пулом рабочих потоков, 
позволяя явно структурировать параллельно исполняющийся код с 
помощью легковесных задач. Планировщик библиотеки Рагаће! 
Ехіепѕіопѕ выполняет диспетчеризацию и управление 
исполнением этих задач, а также единообразный механизм 
обработки исключительных ситуаций. 

• Наибольшая производительность при использовании 
многоядерных процессоров или многопроцессорных машин. 
Вместо того чтобы принимать решение о верхней границе 
количества распараллеливаемых задач во время разработки, 
библиотека позволяет автоматически масштабировать 
выполняемые задачи, динамически вовлекая в работу все большее 
количество ядер, по мере того как они становятся доступными. 
Прирост производительности достигается при использовании 
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Рага!  Ежепзют на многоядерных процессорах или 
многопроцессорных машинах. Вместе с этим Рагаће! Ехіепѕіопѕ 
разработана так, чтобы минимизировать издержки и при 
выполнении на однопроцессорных машинах. 


Языки программирования 


Среди языков программирования можно указать как новые разработки, 
так и известные ранее языки, имеющие поддержку многозадачности или 
многопоточности, 


Безусловно, наиболее массовыми языками программирования являются 
параллельные версии языков С и Фортран, работающие в основном 
через реализации МРІ. 


Язык Си++ часто критикуют за то, что обращение к методу класса в нем 
реализовано как вызов функции, в то время как Симула и Смолток 
позволяли объектам обмениваться сообщениями. Сторонники Си++ 
утверждают, что конкретный способ вызова метода класса — 
внутренняя кухня языка, скрытая от программиста, и что посылка 
сообщения является частным случаем вызова функции, только прямой 
вызов намного более эффективен в плане накладных расходов и 
машинных затрат на такты и оперативную память [98], 


Симула и Смолток естественным образом поддерживают 
многозадачность, многопоточность и распараллеливают вычисления на 
уровне языка. Посылка сообщений может быть как синхронной (объекг 
посылает сообщение и ждет результата), так и асинхронной (объекг 
посылает сообщение и продолжает заниматься своими делами). Это 
позволяет транслятору в кооперации с оперкционной системой 
равномерно раскидать объекты по процессорам или даже по целому 
кластеру Конечно, содействие со стороны программиста крайне 
желательно (не все алгоритмы допускают эффективное 
распараллеливание), но в любом случае программа, написанная на 
Симуле или Смолтоке, автоматически увеличивает свою 
производительность при добавлении новых процессоров. 


Прямой вызов функции, напротив, всегда синхронен. Обращаясь к 
методу класса, текущий код передает ему бразды правления и получает 
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их только после явного возврата, который может вообще никогда не 
произойти! Распараллеливать программу приходится на этапе ее 
создания, причем реализовать динамический алгоритм, 
поддерживающий произвольное количество процессоров, в общем 
случае невозможно или крайне затруднительно, т. к. для этого 
фактически потребуется вручную реализовать Симула/Смолток- 
подобный "движок", "иатянув" его поверх Си++, затратив кучу усилий и 
получив в итоге худшую производительность чем на чистой Симуле 


(Смолтоке). 


Вплоть до настоящего времени этот недостаток Си++ никого не 
беспокоил, поскольку многопроцессорные компьютеры встречались 
крайне редко, да и то большей частью на серверах, одновременно 
обрабатывающих множество запросов от пользователей, и 
распараллеливание велось именно в этом направлении — один и тот 
же Си++-код выполнялся на нескольких процессорах одновременно, 
каждый экземпляр которого обслуживал "своего" пользователя, и все 
были довольны. 


С появлением многоядерных процессоров в рабочих станциях и 
домашних компьютеров программистам пришлось заново учиться 
распараллеливать программы, что без поддержки со стороны языка 
сделать довольно затруднительно, так что появление новых языков (или 
доработка уже существующих) в исторической перспективе неизбежна, 
поскольку количество процессорных ядер будет только увеличиваться, 
причем, по некоторым прогиозам, весьма стремительно [98]. 


Місгоѕой работает над новым языком программирования, известным как 
Ахит, Особенность новой разработки в том, что этот язык изначально 
предназначен для написания многопоточных параллельных 
приложений, оптимизированных для работы на современных 
многоядерных процессорах [99]. 


По словам Джошуа Филлипса, программного менеджера Мкгозой 
Рагађе] Сотриіпр Р\аФоги, пока каких-то утвержденных дат релиза Ахшп 
нет. "Новый язык в большей степени ориентирован на профессионалов, 
он предлагает безопасный и эффективный интерфейс для Мен 
программирования. Этот язык строится на веб-архитектуре, а также на 
принципах изолированности, масштабируемости и 
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производительности", — говорит он. 


Ранее в документах Місгоѕой язык Ахит фигурировал под названием 
Маеѕіто. Филлипс говорит, что в корпорации сейчас работают над 
интегркцией Ахши в среду Уіѕиа] 51000, оптимизацией языка для 
сетевого использования и повышением устойчивости платформы в 
целом. 


Велика вероятность того, что первые варианты Ахшп появятся уже в 
среде Укиа! Ѕішйіо 2010 в качестве движка, инкубированного в 
некоторые технологии. "Наша основная задача — создать безопасную, 
масштабируемую и более производительную модель программирования 
в „Ме-окружении, сообщает СуБегбесшйу, Концепция Ахши основана на 
полной изолированности процессов, которые будут между собой 
обмениваться контрольными сообщениями”, — рассказывает он. 


Ахшп будет базироваться на декларативной модели. Синтаксис Ахшп 
будет в значительной мере похож на С#. 


"Ранее для того, чтобы получить повышенную производительность 
приложения, нам приходилось ждать выхода более быстрого 
процессора, сейчас перед нами стоит задача эффективного 
использования многоядерности процессоров", — отмечает Филлипс, 


"В Ахшп будет пять основных концепций: домен, канал, агент, схема и 
слой, Язык также будет поддерживать глубокую инкубкцию объектов 
кода", — резюмирует он. 


Язык параллельного программирования МС# (ссылка: 
ВируЛимгиитисзВагр.пе!) предназначен для написания программ, 
работающих на всем спектре параллельных архитектур — от 


многоядерных процессоров до Стгій-сетей, Единственное требование к 
таким системам со стороны МС# — на них должна быть установлена 
среда исполнения СГВ (Соттоп Гапрцаре Кипёте) с соответствующим 
набором библиотек. На машинах с оперкционной системой Міпіомѕ 
реализацией такой среды является Місгоѕой „МЕТ Егатемогк, а на 
машинах с операционной системой Гіоих — система Мопо (ссылка: 
ВаруАммлииюпо-рго]есе.сот), которая является свободной реализкцией 
платформы „МЕТ для Ошх-подобных систем [100]. 
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Язык МС# является адаптацией и развитием базовых идей языка 
Ројурћопіс С# на случай параллельных и распределенных вычислений. 
Язык Ројурһопіс СЁ был разработан в 2002 г в Місгоѕой ВезеагсЬ 
ГаБогаюгу (г Кембридж, Великобритания) Н. Бентоном (№. Вещоп), Л. 
Карделли (Г. Сагае) и Ц. Фурнье (С. Еошгей. Целью его создания было 
добавление высокоуровневых средств асинхронного параллельного 
программирования в язык С# для использования в серверных и клиент- 
серверных приложениях на базе Мкгозой „МЕТ РгатемогК 


Ключевая особенность языка Ројурћопіс С# заключается в добавлении к 
обычным, синхронным методам, так называемых "асинхронных" 
методов, которые предназначены играть в (многопоточных) программах 
две основные роли: 


ва 


автономных методов, предназначенных для выполнения базовой 
вычислительной работы и исполняемых в отдельных потоках, и 

2. методов, предназначенных для доставки данных (сигналов) 
обычным, синхронным методом. 


Для синхронизации нескольких асинхронных методов, а также 
асинхронных и синхронных методов, в язык СЁ, кроме того, были 
введены новые конструкции, получившие название связок (сһогдѕ). 


При этом исполнение Ројурһюпіс С#-программ, по замыслу авторов 
этого языка, по-прежнему предполагалось либо на одной машине, либо 
на нескольких машинах, с зафиксированными на них асинхронными 
методами, взаимодействующими между собой с использованием 
средств удаленного вызова методов (ЕМІ — ВКешое Мећоа шуосаоп), 
которые предоставляются библиотекой — Зучет.Випите.Ветобая 
платформы МЕТ, 


В случае языка МС# программист может предусмотреть исполнение 
автономных асинхронных методов либо локально, либо удаленно. В 
последнем случае, метод может быть спланирован для исполнения на 
другой машине, выбираемой двумя способами: либо согласно явному 
указанию программиста (что не является типичным случаем), либо 
автоматически (обычно на наименее загруженном узле кластера или 
машине Сті0-сети). Взаимодействие асинхронных методов, в рамках 
языка МС#, реализуется посредством передачи сообщений с 
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использованием каналов и обработчиков канальных сообщений. Эти 
каналы и обработчики определяются в МС#-программах с помощью 
связок в стиле языка Роіурћогіс С#, 


Таким образом, написание параллельной, распределенной программы 
на языке МС# сводится к выделению с помощью специального 
ключевого слова аѕупс методов, которые должны быть исполнены 
асинхронно локально (в виде отдельных потоков), а также с помощью 
ключевого слова пюуаЫе тех методов, которые могуг быть перенесены 
для исполнения на другие машины. 


Краткие итоги 


Данная лекция, безусловно, не претендует на полноту охвата всех 
существующих библиотек и уж тем более языков программирования, 


Даны общие сведения о наиболее популярных библиотеках, которые 
интересны в плане их применения в программах на различных языках. 


Сознательно обойдены стороной расширения для параллельного 
программирования языков С и Фортран, их рассмотрению посвящено 
множество литературы и нет сомнений, что массово используются и, 
скорее всего, будут использоваться именно эти языки. Внимание 
уделено некоторым интересным апектам относительно редко 
применяемых языков и анонсам разработок новых. 


Основная доля новых работ нацелена на различные способы 
синхронизации объектов данных и поддержку многопоточного 
программирования. 


Краткие итоги 


1. Каковы основные причины создания специализированных 
библиотек для программирования многоядерных процессоров? 

2. В чем заключаются основные особенности языка МС#? 

3. Назовите языки программирования многоядерных процессоров, 
ориентированные на функционирование в рамках среды „Ме! 


340 


Калачев А.В 'Многоядерные процессоры 


Упражнения 


1. Дайте сравнительную характеристику различных моделей 
программирования многоядерных процессоров. 

2. Дайте характеристику средствам программирования фирм Пие| 
ІВМ, Зи, 


Заключение 


Многоядерные процессоры являются одной из наиболее активно 
развивающихся областей электроники на данный момент, В среднем 
примерно раз в полтора-два месяца какая-либо из компаний- 
производителей заявляет о разработке или выпуске нового процессора 
или архитектуры. Совершенствуются способы взаимодействия 
процессорных ядер на кристалле между собой. В многоядерных 
процессорах преобладают сложные сетевые структуры. Мультиядерные 
процессоры используют шинные решения или соединения “точка- 
точка". Также в качестве одной из тенденций можно отметить 
стремление интеграции на кристалле процессора, кроме процессорных 
элементов контроллеров памяти, таймеров, периферийных 
интерфейсов, — так называемые "системы на кристалле". Одной из 
основных проблем остается высокая латентность основной памяти. 
Общее энергопотребление процессоров за последние годы 
практичестки не возросло, а для некоторых классов процессоров имеет 
явные тенденции к снижению. 
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Общий глоссарий 


"Гарвардская" архитектура — способ построения вычислительной 
системы, при котором разделяются памяти команд и памяти данных и 
для передачи исполнительному устройству команд и данных 
используются отдельные шины. 


"Синергичный" процессорный элемент (Ѕупегріѕйїс Ргосеѕѕог Еіетепі 
(Ѕ$РЕ)) — представляет собой отдельный процессор, выполняющий 
отдельное приложение. Разделяемая когерентная память и большой 
набор команд для ОМА позволяет организовать эффективный обмен 
данными между ЅРЕ. Выборка инструкций, а также инструкции 
загрузки/сохранения работают только в пределах адресного 
пространства локальной памяти $РЕ. Большой объем регистрового 
файла служит более полному заполнению вычислительного конвейера. 
В каждом ЅРЕ есть контроллер потока данных памяти. 


АМВА 3 АХІ — стандарт АМВА изначально был разработан для 
эффективного взаимодействия между процессорами АКМ. Стандарт не 
накладывает жестких ограничений на метод арбитража шины. Это 
позволяет реализовать арбитраж в соответствии с требованиями, 
которые предъявляются к проектируемому устройству В спецификации 
определены две шины; многоуровневая АНВ и АМВА Аауапсеа 
Ежеп$е Імегѓасе (АХЛ. Многоуровневая АНВ позволяет создавать 
более гибкие архитектуры (например, матричного типа, в которых 
имеется возможность параллельных пересылок между несколькими 
ведущими и ведомыми устройствами). АМВА АХІ построена по 
принципу двухточечного соединения ("точка-точка"); между ведущим и 
ведомым устройством передача данных происходит по отдельным 
каналам записи и чтения, 


Апе — содержит 64 оптически соединенных кластера, которые 
включают небольшие электрические структуры, служащие для 
взаимодействия с оптической сетью — сети ЕМеёи ВМе 


АВМ (Адуапсеї Кіѕс Масһіпе) — модификация В1$С-архитектуры — одно 
из ключевых усовершенствований — Условное выполение всех 
инструкций процессора, 
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Ахшп — язык изначально предназначен для написания многопоточных 
параллельных приложений, оптимизированных для работы на 
современных многоядерных процессорах. Основные концепции: домен, 
канал, агент, схема и слой. Поддерживается также глубокая инкубация 
объектов кода, 


СОРА (Сотрше Опфе Реуісе Атсһйесіше) — архитектура с 
унифицированными вычислениями, иногда называемая СРЈ 
Сотрийпя.Среда представляет собой надстройку над языком С, которая 
вводит несколько новых операторов и процедур, значительно 
облегчающих программирование расчетов общего назначения, а также 
компилятор. 


Реуісе Ехсіиѕіоп Уесюг — позволяет гипервизору определять, позволен 
ли доступ виртуальной машине или устройству к определенной 
странице памяти или нет. 


РСЕММ — тест перемножения матриц двойной точности. 


Пиесе Соппесе АтсНиесцге — прямое подключение шин ввода-вывода 
НурегТгапзрое (до 8 Гб/с), обеспечивающее оперативное 
взаимодействие между процессорами; интегрированный контроллер 
памяти, эффективно снижающий латентность и положительно 
влияющий на производительность; непосредственное подключение 
памяти ООЕ2. 


ЕМ№ес — обычная двумерная электрическая сеть типа "точка-точка", 
аналогичная сети в обычных мультипроцессорах. 


Епрапсед АМО РомегМом! — расширенная и улучшенная технология 
оптимизации энергопотребления, позволяющая динамически снижать 
потребление энергии ядрами — до 75% в ждущем режиме, 


ЕРІС (ЕхрёсШу Рагае] пзиасбио Сотрийпр) — технология явного 
параллелизма на уровне команд. 


Егтог Сһескіпр апа Согесііпп (ЕСС) — технология проверки и корреяции 
ошибок памяти. 


ЕО — "Нз-ш-ЯзНоче" — принцип построения очередей или буферов 
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по принципу "первый пришел — первый вышел". 


САТ$ — глобально асинхронная, локально синхронная архитектура 
многоядерных процессоров, при которой отдельные процессорные ядра 
тактируются собственными независимыми генераторами, не 
синхронизованными между собой. 


СРСРИ — вычисления общего назначения на графических процессорах, 


Сгій-система — согласованная, открытая и стандартизованная 
компьютерная среда, обеспечивающая гибкое, безопасное, 
скоординированное распределение вычислительных ресурсов и 
ресурсов хранения информации (ресурсы могуг быть разнородными и 
географически распределенными). 


НРС (Ні Регќотапсе Сотрийпр) — высокопроизводительные 
вычисления — круг задач, связанных с большим объемом 
вычислительных или логических операций, а также с большими 
объемами данных или сетевым трафиком. 


НурегТтапѕрогі — высокоскоростная шина ввода-вывода процессоров 
АМР. 


ТА-процессор (Іме] Агсһйес(ше) — процессоры, совместимые по системе 
команд процессорами Нине! 


ие! ІРР — набор кросс-платформенных библиотек, содержащих 
большое количество высокопроизводительных функций, которые могуг 
быть использованы для аудио- и видеокодеков (например, Н.263, 
МРЕС-4), сжатия изображений (ЈРЕС и ЈРЕС2000), обработки 
изображений (двумерных массивов), обработки сигналов (одномерных 
массивов или векторов), сжатия естественной речи, систем 
компьютерного зрения, криптографических приложений, а также 
вспомогательных математических функций. 


ие! Маф КегпеЇ ігагу (МКГ) — представляет собой набор фуняций 
линейной алгебры, быстрого преобразования Фурье и векторной 
математики для разработки научного и инженерного программного 
обеспечения. 
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Зале ОВХ (Пупапйс Вуіесойе еХесшіпп) — динамическое выполнение 
байт-кодов. Основным элементом этой техиологии является 
специальный сопроцессор, встраиваемый в стандартную архитектуру 
микропроцессоров АЕМ. Сопроцессор аппаратно преобразует байт-код 
Јауа в соответствующую последовательность команд основного 
процессора, который немедленно их выполняет. Программная 
интерпретация байт-кодов заменяется аппаратной, что приводит к 
существенному ускорению обработки байт-кодов и, как следствие, 
ускорению выполнения программ на Тауа. 


Зале ЕСТ (Випбме Сотрйег Тагде) — поддержка динамических 
компиляторов. Јағее ВСТ вводит дополнительный набор инструкций в 
стандартную архитектуру процессоров АВМ. Новые команды 
специально разработаны для оптимального выполнения Јауа байт- 
кода. Таким образом, простой компилятор может быстро преобразовать 
байт-код в команды основного процессора, при этом эффективно 
используя новые типы команд. В большинстве случаев каждому байт- 
коду будет соответствовать единственная 16-разрядная команда из 
нового набора, В результате сгенерированный код будет иметь 
практически тот же размер, что и исходный байт-код, но будет 
выполняться аппаратно, 


ТАМ — открытая реализация стандарта МРІ. С недавнего времени — 
Ореп МРІ. 


Тоор Ѕітеаш Пеіесіог — потоковый детектор цикла — блок конвейера, 
отслеживающий циклы в прикладной программе, оптимизируя тем 
самым работу конвейера. 


МС# — язык параллельного программирования. Предназначен для 
написания программ, работающих на всем спектре параллельных 
архитектур — от многоядерных процессоров до Сгій-сетей. 
Единственное требование к таким системам со стороны МС# — на них 
должна быть установлена среда исполнения СТВ (Соттоп Гапрџаре 
Випите) с соответствующим набором библиотек, 


ММО — множественный поток команд и множественный поток 
данных. Эти машины параллельно выполняют несколько потоков 
инструкций над различными потоками данных 
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МІРЅ (Місгоргосеѕѕог міћош Іліегіоскед Ріреіпе Ѕіареѕ) — архитектура 
процессорных ядер, базовая концепция которой заключается в 
значительном повышении производительности за счет существенного 
упрощения архитектуры процессора, в основу которой была положена 
идея конвейеризации. При этом была решена проблема блокировок или 
вынужденных остановок конвейера, называемых іліегіоскѕ, которая 
считалась главным препятствием распространению идеи конвейерного 
вычисления. 


МІР532 ЮР АЅЕ — расширение архитектуры МІР5, направленное на 
ускорение обработки сигналов и работы с аудио-/видеоданными. 
Реализация расширения набора инструкций добавляет всего 5-10% 
площади кристалла, при этом дает до 300% уяеличения 
производительности ряда приложений. 


МРІ (Меѕѕаре Раѕѕіпр Іміегіасе) — интерфейс передачи сообщений. 
Библиотека, являющаяся одной из наиболее распространенных систем 
параллельного программирования. Использование передачи сообщений 
для организации параллельных вычислений ориентировано прежде 
всего на многопроцессорные компьютерные системы с распределенной 
памятью, 


МТАР (Миуш-Тьеааед Атау Ргосеѕѕог) — многопотоковый 
процессорный массив, составная часть процессора С5 Х700. 


МТАР (Миші-Тіхеаіед Атау Ргосеѕѕог) — многопотоковый 
процессорный массив, составная часть процессора С5 Х700. 


МЕОМ — мультимедийное 128-битное 51Мр0-расширение архитектуры, 
предназначенное для поддержки мультимедийных операций и фуняций 
цифровой обработки сигиалов. 


Моп Отйогп Мепюгу Ассеѕѕ (МОМА) — процессорная система с 
неоднородным доступом к памяти. 


ОСР — стандартом ОСР (Ореп Соге Ргоюсо]) определяется 
конфигурируемый и независимый от шины интерфейс типа ‘точка- 
точка" между процессорными модулями и коммуникационными 
подсистемами ОМС. ОСР является синкронным интерфейсом типа 


"ведущий-ведомый" с однонаправленными сигиалами. Все сигиалы (за 
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исключением СЕК и КЕЅЕТ) являются сигиалами типа "точка-точка". 
Скорость передачи может контролироваться как ведущим, так и 
ведомым устройством; пересылки могут быть как конвейерными, так и 
блочными. 


ОМег — обеспечивает связь между отдельными конечными точками, 
называемыми хабами. 


ОрепМР — набор директив, библиотечных процедур и переменных 
окружения для программирования многопоточных приложений на 
многопроцессорных системах с общей памятью. 


РагаШе] Ехіепѕіппѕ іо ће „МЕТ Егашемогк (Рагае ЕХ Г№гагу (РЕХ)) — 
библиотека, разработанная фирмой Мсгозой, для применения в 
программах на базе управляемого (тапарей) кода. Она позволяет 
распараллеливать задачи, в которых могут использоваться специальные 
— координирующие (соогііпайтр) — структуры данных. 


РОЅІХ (РомаЫе Орегайпр Ѕуѕіеш Ниемасе юг Ошх) — переносимый 
интерфейс операционных систем 1піх Набор стандартов, 
обеспечивающих интерфейсы между операционной системой и 
прикладной программой, 


РОЅІХ Тыеа@ АРІ — стандарт реализации потоков выполнения, 
определяющий прикладной программный интерфейс для их создания и 
управления, 


РУМ (Рага!] Уілџаі Масһіпе) — программная система, которая 
представляет разнородные компьютеры, связанные сетью, как единую 
параллельную машину, 


ОшекРаћ Іміегсоплесі (ОР) — интерфейс ОРІ является 
двунаправленным с двумя 20-битными шинами, по одной на каждое 
направление, из которых 16 зарезервировано под данные, а оставшиеся 
четыре — под фунации исправления ошибок или служебную 
информацию протокола, 


КАІР-массив — массив из нескольких дисков, управляемых при 
помощи спецмиализированного контроллера, взаимосвязанных 
скоростными каналами передачи данных и представляющих для 
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внешней системы единое целое. Служит для повышения надежности 
хранения данных, а также для ускорения доступа к данным, 


БІЅС-процессор — процессор с системой команд сокращенной 
фунациональности. Основные характеристики Е1$С-процессоров: 
фиксированная длина инструкций; отсутствуют операции типа 
"итениемодификация-запись" с памятью; большое количество регистров 
общего назначения; отсутствие микропрограмм. 


ІМЮ — одиночный поток команд и множественный поток данных. 
Эти системы обычно имеют большое количество процессоров, которые 
могуг выполнять одну и ту же инструкцию относительно разных 
данных в жесткой конфигурации. Единственная инструкция парал- 
лельно выполняется над многими элементами данных. 


Ѕіпикапеоиѕ Миі-Тгеадіпр (ЅМТ) — последовательная многозадачность 
— поддержка процессорным ядром некольких потоков исполнения, 


$МР Гіпих — версии операционной системы Гіпих, поддерживающие 
однородные многопроцессорные системы. 


ЗРАВС  (5савЫе  Ргосеззог АКСһшесше) — масштабируемая 
процессорная архитектура, Основные характерные черты; 


• использование регистровых окон для передачи параметров и 
возврата результатов; 

® поддержка нескольих потоков выполнения при помощи 
переключения потоков во время ожидания данных из памяти, 


Тгапјабоп  Гооказ4е Вийег (ТЫВ) — таблица преобразования 
виртуальных адресов в реальные. 


Тгиѕ(Хопе — технология для обеспечения безопасности транзакций, 
управления цифровыми сертификатами, создания базы для проверки и 
защиты прав (Рірйа В 5 Мапаретеш (БЕМ)), защиты данных 
приложений, 


УШМ/-процессор — процессоры с т, н. длинным командным словом — 

команды таких процессоров содержат явные инструкции по 

распараллеливанию подкоманд на несколько исполнительных устройств 
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процессора. 


Архитектура СВЕА (СеЙ ВгоайБапа Епріпе Атсһйесіше) — архитектура, 
расширяющая 64-битную архитектуру 


Архитектура АТАС — объединяет оптическую широковещательную сеть 
с ячеистой (плиточной) мультиядерной архитектурой для значительного 
увеличения производительности, энергетической масштабируемости и 
упрощения программирования. 


Асимметричные процессоры со специализированными ядрами — 
процессоры, сочетающие в себе разнотипные процессорные ядра. 


Блок предсказания ветвлений — блок конвейера, просчитывающий 
вероятности условных или безусловных переходов программы, 
исполняемой процессором, 


Блокировка — взаимоисключающий доступ к одному ресурсу двух или 
более потоков. Возникает, когда несколько потоков ждуг результатов 
данных или завершения работы друг друга. 


Виртуальный процессорный элемент — поток выполнения использует 
свои ресурсы процессора независимо от других потоков, переключение 
контекста для выполняющегося потока прозрачно. Фактически, каждых 
поток работает со своим процессором. 


Вычислительная ячейка (Ш) — структурный элемент многих 
многоядерных процессоров, обычно содержащий один или несколько 
процессорных элементов, 


Гонки — возникают, когда несколько потоков многопоточного 
приложения пытаются одновременно получить доступ к данным и при 
этом хотя бы одному потоку нужновыполнить запись. Гонки могут дать 
непредсказуемый результат. 


Динамические реконфигурируемые процессоры — процессоры, 
содержащие стандартное адро и расширяющее его возможности 
устройство, которое может быть запрограммировано в процессе 
исполнения; обычно это бывает программируемая логическая матрица 
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Закон Мура — вычислительная мощь микропроцессоров и плотность 
микросхем памяти удваивается примерно каждые 18 месяцев при 
неизменной цене, 


Классификация Флинна — один из наиболее удобных подходов к 
классификации архитектур вычислительных систем (предложен в 1966 
году М. Флинном (Еупп)). В основу было положено понятие потока, под 
которым понимается последовательность элементов, команд или 
данных, обрабатываемая процессором. Соответствующая система 
классификации основана на рассмотрении числа потоков инструкций и 
потоков данных и описывает четыре архитектурных класса; 5150 — 
Ѕіпрје Ілѕітосііпп Ѕіпре Паѓа; МІЅЮ — Мире Іпѕігисіпп Ѕіпре Паа; $1МО 
— Ѕіпрје Іпѕітисіпп Мшбре аа; МІМР — Мире Іпѕітосіоп Мире аса, 


Кластер — модульная многопроцессорная система, созданная на базе 
стандартных вычислительных узлов, которые соединены 
высокоскоростной коммуникационной средой. 


Кольцевой резонатор — оптический фильтр для извлечения света 
нужной длины волны из световода и транспортировки его к 
фотодетектору; настроен на конкретную длину волны. 


Конфигурируемые процессоры — "Заготовки" для создания 
специализированных процессоров, содержат в себе необходимый набор 
компонентов, адаптируемый к требованиям приложений, 


Массив взаимодействующих/конкурирующих нитей — техника 
выполнения задач на графическом процессоре (СТА — Соорегайуе 
Тһеа@5 Аггау). Нити в СТА выполняют одну программу каждая нить 
имеет свой идентификационный номер, нити разделяют данные и 
синхронизованы между собой. Программа использует номер нити для 
выбора активной нити и адресации разделяемых данных. 


Многопотоковые/мультитредовые мультиядерные процессоры — 
высокоинтергрированные процессорные системы — "системы 
(серверы) на кристалле", 


Многопоточность — аппаратная поддержка процессором нескольких 
потоков выполнения, 
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Многоядерность — подход к построению высокопроизводительных 
процессоров, при котором на кристалле располагаются относительно 
простые вычислительные ядра и число их — от нескольких десятков до 
нескольких сотен. 


Многоядерные процессоры общего назначения — процессоры с ядрами, 
по сложности приближающимися к ядрам процессоров общего 
назначения. Имеют развитую систему кэш-памяти, 
высокопроизводительную систему связей между ядрами, 


Модель ассиметричных потоков — модель ассиметричных потоков 
является расширением широю распространенной модели 
многопоточности на случай вычислительных модулей с различной 
архитектурой инструкций. 


Модель выгрузки функций — явным образом указывает, какие функции 
на каких ядрах должны выполняться. 


Модель мультипроцессора с разделяемой памятью — в 
мультипроцессорах с общей памятью (сильносвязанных 
мультипроцессорах) имеется память данных и юманд, доступная всем 
процессорам. С общей памятью процессорный элемент связывается с 
помощью общей шины или сети обмена, 


Модель ускорения вычислений — выделяется одно или несколью 
управляющих ядер, остальные ядра выполняют наиболее 
вычислительно емкие участки кода программы. Необходимо 
распараллеливать программу и данные, Необходимо организовывать 
эффективный обмен кодом и данными между ядрами. 


Мультиядерность — подход к построению высокопроизводительных 
процессоров в котором процессорные ядра являются 
высокопроизводительными и их на кристалле относительно небольшое 
количество. 


ОККАМ ЕЕ язык программирования многопроцессорных 
вычислительных систем, в основе которого лежит концепция 
взаимодействующих последовательных процессов. Процессы, 
протекающие параллельно, используют обмен информацией типа 
"рандеву" между парой процессов. При этом процесс, первым 
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подошедший к точке "рандеву", ожидает готовности второго процесса. 


Платформа "Мульгикор" — это однокристальные программируемые 
многопроцессорные асимметричные "системы на кристалле" на базе ІР- 
ядер. Типовой состав процессоров данной платформы — ведущее 
МІР5-ядро и один или несколью сигнальных процессоров серии ЕІ соге. 


Потоковые модели — потоки (@геаа), состояние которых полностью 
характеризуется значениями указателей на код и стек, Переключение 
процессора на поток минимизировано вплоть до операций сохранения/ 
восстановления этих указателей, Планировщик по-прежнему 
присутствует и активизируется по прерываниям от таймера, Таким 
образом, при многопоточности можно минимизировать или даже 
полностью исключить накладные расходы, присущие многозадачности. 
Простота организации делает многопоточность привлекательной для 
обеспечения "мелкозернистого" логического параллелизма с 
гранулярностью на уровне нескольких инструкций. 


Потоковый мультипроцессор — множество нитевыя/потоковых 
процессорных ядер графического процессора, которые выполняют одну 
операцию над множественным потоком данных, имеющим общий блок 
управления и память. 


Процессорный элемент Ромег (РРЕ) — центральное ядро процессора 
Сей, Имеет архитектуру Ромег, в основном играет роль ведущего ядра в 
процессоре, 


Процессоры для мобильных устройств — низкопотребляющие 
высокопроизводительные процессоры с развитой системой управления 
энергопотреблением и набором периферийных модулей. 


Пучок/группа/верп — группа потоков программы, выполняющейся на 
потоковом мультипроцессоре, над которой выполняется одна операция, 


Раздел (814) — один из последовательности шагов решения задачи, 
выполняющийся параллельно на графическом процессоре, 


Режим Тифо — режим работы процессоров с микроархитектурой 
Меһајет, позволяющий в некоторых случаях увеличивать рабочую 
частоту одного или нескольких процессорных ядер при отключении 
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неиспользуемых ядер. 


Специализированные многоядерные процессоры — процессоры с 
относительно простыми ядрами небольшой разрядности, с эффективной 
системой управления энергопотреблением, 


Специализированные процессоры — процессоры, которые имеют 
набор команд, адаптированный к определенным приложениям, 


Техиология Пиа| Пупаше Ромег Мапаретем — позволяет каждому 
процессору в полной мере использовать преимущества 
усовершенствованной энергосберегающей техиологии Епһапсеі АМР 
Роме Мочи! без снижения производительности, 


Техиология Мийісоге Нагама! — техиология организации вычислений в 
процессорах Те, позволяющая выделить одно или несколько ядер в 
относительно независимую процессорную группу исключая 
коммуникации между выделенной группой и остальными ядрами, не 
включенными в группу, 


Техиология когерентного кэша Тшегаз ОРС — динамический 
распределенный когерентный кэш в процессорах Тйе, позволяющий 
одним ядрам получать доступ к данным, кэшированным ранее другими 


ядрами. 


Фон-Неймановская архитектура — способ построения вычислительной 
системы, основывающийся на принципах фон Неймана: 


•* принцип использования двоичной системы для представления 
команд и данных; 

® принцип программного управления (программа состоит из набора 
команд, которые выполняются друг за другом в определенной 
последовательности); 

® принцип однородности памяти (программы и данные хранятся в 
одной и той же памяти, над командами можно выполнять те же 
действия, что и над данными); 

® принцип адресуемости памяти; 
принцип последовательного программного управления; 
принцип условного перехода. 
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Частотное мультиплексирование — разнесение нескольких потоюв 
передачи данных в одном физическом канале за счет передачи потоков 
на различных частотах. 
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Список сокращений 
АСР (Ассёаегаюг Сойегепсе Рогі) — порт ускорения согласования 
АМВА — стандарт высокоскростной процессорной шины 


АМЗТ (Атегісап Мабопа| Ѕ(апдагіѕ зе) — Национальный Институг 
Стандартизации США. 


АРІ (Аррйсабоп Ргоэгат Імегѓасе) — интерфейс прикладных программ 


АЅМ  (Ашо-Зедиесе Мешогу) — память с автоматической 
последовательностью 


АТАС — архитектура, объединяющая оптическую широковещательную 
сеть с ячеистой (плиточной) мультиядерной архитектурой 


АХІ (А4уапсед Ехіепѕе Імегѓасе) — оптимизированный расширяемый 
интерфейс 


ВГА$ (Ваѕіс Глиеаг АЇдеђға Ѕиһргодгатѕ) — базовые подпрограммы 
линейной алгебры 


ВС (Ваѕіс Зюйоп Сотітоћег) — контроллеры базовых станций 
ВТВ (Вгапсћ Тагре! Вийег) — целевой буфер ветвлений 
ВТЗ (Вазк Тгапѕіуег баНоп) — базовая приемо-передающая станция 


СВЕА (Сей Вгоадђапа Епріпе АгсВйесвие) — архитектура, расширяющая 
64-битную архитектуру 


СРМА (Соде Ріуіѕіоп Мире Ассез$) — множественный доступ с 
разделением каналов 


СР5 — когерентная процессорная система 


СТА (Соорегабуе Тһеадѕ Атау) — массив взаимодействующих/ 
конкурирующих нитей 


СОРА (Сотрше Оифеда Оеуке Атсһйесіше) — архитектура с 
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унифицированными вычислениями 


ОВХ (Пупаше Вуесоае еХесийоп) — динамическое выполнение байт- 
кодов 


РРС (Рупатіс Обифиед Сасһе) — динамический распределенный кэш 
Рр (Ооџше Ра Вае) — удвоенная скорость передачи 

ПЕУ (Пемсе Ехсішѕіоп Уесюг) — вектор управления устройствами 
ОСЕММ — тест перемножения матриц двойной точности 

ОМА (Рес! Метогу Ассеѕѕ) — прямой доступ к памяти 


ОМТР$ (Рһгуѕіопе МІР5) — 10МІРЅ равен 1757 циклам выполнения 
системного теста Ойгузюпе на машине УАХ 11/780 


ОРА (Раю Ртосез$ Аттау) — массив процессоров данных 

РРО (Раѓа Раф Оли) — процессор данных 

РЕМ (Гіра! В $ Мапаретепі) — цифровой контроль авторского права 
РР (Рідійа! 5ідпа! Ртосеззог) — цифровой сигнальный процессор 

088 (Пеѕірп Ѕиррогі Ѕуѕіегт) — система поддержки принятия решений 


РУЕР5 (Пупаше Ѕирріу Уойаде апі Сіоск Ртедиепсу Ѕсаїр) — 
динамическое управление напряжением питания и тактовой частотой 


ЕСС (Егтог Спесктд апі Согесіюп) — проверка и коррекция ошибок 
ЕІВ (Евтеги ИчегсоппесЕ Виз) — шина, объединяющая элементы 
ЕРГ(Епегду рег Іпѕітисбоп) — затраты энергии за команду 


ЕРІС (Ехріісіцу РагаПеї тягисйоп Сотрийпр) — параллелизм на уровне 
команд 


ЕВР (Ешегргіѕе Везошзе Ріапіпд) — комплексное управление ресурсами 
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ЕҒТ (Базі Еошіег Тгапіогшабоп) — быстрое преобразование Фурье 


ЕТЕО (Еігѕі іп Еігѕі Оц) — "Первым пришел — первым обслужен" 


ЕРСА  (Её4 РторгатпаБе Саіе-Атгау)у —— разновидность 
программируемой логической интегральной схемы, содержащая 
логические элементы и блоки коммутации. Программа для ЕРСА 
хранится в распределенной оперативной памяти микросхемы, поэтому 
требуется начальный загрузчик 


САС (Сепегіс Айдгеѕѕ Сепегаюг) — универсальный генератор адресов 


САІЅ5 (СіюБају- Аѕупсһгопоиѕ Госађу-Ѕупсһгопопѕ) —— глобально 
асинхронный локально синхронный 


СМ (СЮЪа| Ѕуѕуіет оЁ МоБЙе соттипісаіоп) — глобальная система 
мобильной связи 


НРС (Нем Регіотапсе Сотршіюр) — высокопроизводительные 
вычисления 
НТ (Нурег-Тгапѕрог) — высокоскоростная шина ввода-вывода 


процессоров АМР 

НУУ (Нага\Маге) — аппаратное обеспечение 

ЈА-процессор — процессор архитектуры Пе] 

ІРС (Імегпаопа! Оаќа Согрогавоп) — аналитическая компания 

ІРЕ (Пе ОеуеЮрег Рогит) — форум разработчиков 

105 (тігиѕіоп Реіесііоп Зудет) — система обнаружения вторжений 


ТЕЕЕ (Пеивие оЁ Еесё\са! апі Е1есітопісѕ Епдіпеегѕ) — Институт 
инженеров по электротехнике и электронике 


ІР (пееНесша! Ргореғіу) — интеллектуальная собственность 


1Р5 (Ітіғиѕіоп Ргеуепйоп Ѕуѕіет) — система предотвращения вторжений 
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ТРТУ — ІР-видео 
ІТ ([тегуа! Тітег) — интервальный таймер 
ТЈ (Іпѕітисбоп пи) — блок инструкций 


ЈРЕС (Јоіпі Рћоѓоргарћу Ехрегіѕ Стоцр) — метод сжатия изображений и 
графический формат 


ТАС (Зои Тей Ашотаноп Стоџр) — Объединенная группа по 
автоматизации тестирования — отладочный интерфейс 


ГАРАСК — библиотека с открытым кодом для ЭВМ с общей памятью, 
содержащая решатели основных задач линейной алгебры 


МАС (Медіа Ассеѕѕ Сопио]) — уровень контроля доступа к среде 


МОЕ (Миісоге Реуеіортепі Епуігоптет) — среда разработки для 
многоядерной системы 


МЕС (Мешогу Ром СопітоПег) — контролер памяти 


МІМР (Мире Ірѕітисіоп Мибре Раќа) — много потоков команд, много 
потоюв данных 


МІРЅ (Місгоргосеѕѕог міћош  Биетоскеа Ріреіпе іадеѕ<) — 
микропроцессор с архитектурой, устраняющей блокировки конвейера 


МІР (Моп Пьгасвоп рег Ѕесопі) — миллионов команд в секунду 


МІЅС (Міпіта! Іпѕітисйоп 85е! Сотршег) — процессор с минимальным 
набором длинных команд 


МЕР (Мире Ілѕігисіюр $тае Паѓа) — множество потоков команд, один 
поток данных 


МІЅР (Мшире Глугисйоп Ѕтеат Ргосеѕѕіпр) — потоковая обработка 
множества команд 


МКІ (Шие] Маф Кегпе! Ггагу) — математическая библиотека Пие] 
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ММР (Маззме  Рагайе! Ртосеѕѕіпд) — массивно-параллельная 
архитектура 


ММО (Метогу Мападетет Оп) — блок управления памятью 


МОЕЅІ (Мод{е4 Оутей Ехсішѕіме Ѕһагей Іпуаћа) — протокол поддержки 
когерентности кэшей микропроцессоров, который включает в себя все 
возможные состояния, используемые в других протоколах 


МТАР (Ми№-Тһеадеӣй Аггау  Ртосебзог) —— многопотоковый 
процессорный массив 


МСО (Моп СасһеаБе Ой) — некэшируемый блок 
МИОМА (М№оп Опјогт Метогу Ассеѕѕ) — неоднородный доступ к памяти 


ОСР (Ореп Соге Ргоїосо!) — стандарт, определяющих юнфигурируемый 
и независимый от шины интерфейс типа “точка-точка” между 
процессорными модулями и коммуникационными подсистемами 
микропроцессорной системы; является синхронным интерфейсом типа 


"ведущий-ведомый" с однонаправленными сигналами. 


ОІТР (Оп Гіпе Тгапзасйоп Ргосеѕзіпд) — обработка транзакционных 
данных 


ОрепМР (Ореп ѕресійсаопѕ Юг МиН-Ргосеѕѕіпр) — открытый стандарт 
вычислений для многопроцессорных систем с общей памятью 


05 (Орегаіїпр Ѕуѕіет) — операционная система 
РС1е (Регірһега! Сотропеги Пиегсоппес! ехргеѕѕ) — системная шина 
РЕ (Ргосеззог Еетет) — процессорный элемент 


РР (Ргорогіопаі, Пета, Оегіабуе сотто) — Пропорционально- 
интегрально-дифференциальное управление 


РОЕ (Раскеё Оғіегіпд Епете) — устройство упорядочивания пакетов 


РОЅІХ (РопаБе Орегабов будет Ітќегјасе Юг Опіх) — переносимый 
интерфейс операционных систем Ошх 
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РРЕ (Ромег Ргосеззог Еетеп) — процессорный элемент Ромег 


р-МОП — р-канальный металл-оксид-полупроводник 


ОАМ (оџайгаше АтрШиае Моашаноп)— квадратурная амплитудная 
модуляция 


005 (ОпаШу оѓ Ѕегуісе) — качество обслуживания 


ОРІ (ОшіскРа!ћ Ниегсоппес — системный интерфес процессоров Пе] с 
микроахитектурой Мева]ет 


ОРЅК (Опметагу Рназе-ЗЫй Кеуіпр) — фазовая манипуляция с 
четвертичными фазовыми сигналами 


КАП» (Кейџат Атау оѓ таерепае Гіѕкѕ) — избыточный массив 
независимых дисков 


ВАМ (Вапаот Ассеѕѕ Мепюгу) — память с произвольным доступом — 
оперативная память 


ВСТ (Вопіїте Сотрйег Тагре!) — поддержка динамической компиляции 


В15С (Ведисей тягисйоп 5е! Сотршег) — процессор с системой команд 
сокращенной функциональности 


ЕТТ (Беа! Тите Тітег) — таймер реального времени 


$ОК (Ѕоймағе Реуеюртет Кї) — набор инструментальных средств для 
разработки программного обеспечения 


ЗЕА (бсааЫМе Етһейдеі Агау) — масштабируемый встраиваемый 
массив 


ЗЕВРЕЗ (Ѕегіајазег- Оеѕегіајаег) —  пребразователь кода из 
последовательной формы в параллельную 


5МР (ше Тазітосбоп Мире Юаќа) — один поток команд, множество 
потоюв данных 


515 (Ѕіпрје Іпѕітисіоп Эш Паша) — один поток команд, один поток 
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данных 


510 (будет Виегасе Оті) — блок системного интерфейса 


ЅМР (5уттей1с Мишйргосез$т9) — симметричная многопроцессорная 
архитектура 


оС (Ѕуѕіет оп Сћір) — система на кристалле 


501 (5$Йсоп-оп-тзщШаюг) — структура типа "кремний-на-диэлектрике" 


ЗРАВС  (5самЫе  Ргосеззог  АВСШиесцие) — масштабируемая 
процессорная архитектура 

ЗРЕ (Ѕупегріѕііс Ргосеѕѕог ЕЇегпетіѕ) — синергичные процессорные 
элементы 


ЅРІ (ЅегіаІ Реғірћегіа! Іміегѓасе Ргоосо]) — протокол последовательного 
периферийного интерфейса 


РМР (Ѕіпре-Ргоргат Мивре-Паа) — одна программа, много данных 
5ВАМ (аще Вапаот Ассеѕѕ Метюгу) — статическая оперативная память 


55Е (5ітеатіпр 5МР Ежепйоп) — потоковое 5$1МР-расширение 
процессора 


ТІВ (Тгапуаноп Гоо(аѕійе Вийег) — буфер быстрого преобразования 
адреса 


ОАРВТ (Опіхегѕа] Аѕупсһгопоиѕ Весемег/Тгапзтвег) — универсальный 
асинхронный приемопередатчик 


0$В (Опіметѕа] Ѕегіа! Виз) — универсальная последовательная шина 
УГТ (Уегу Гопя Іпеігисбоп Уга) — сверхдлинное командное слово 


УРЕѕ (Ушиа! Ргосеѕѕіпд Е! ететз) — виртуальные процессорные 
элементы 


УРМ (Уігіша] Регзопа] Мемогк) — виртуальная частная сеть 
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У80 Уесюг Ѕсајаг Опй) — скалярно-векторный блок 


МОМ (Мачете й-Рмбюп М\арехте) — частотное разделение 
(спектральное уплотнение) 


МРТ (Мак Ров Типег) — сторожевой таймер 


ХАІ (Х Ацасбтет Оой Пиефасе) — 10-гигабитный интерфейс, 
независимый от среды передачи 


ХМІ, (Ехіепѕе Магкир Гапрџаре) — расширяемая спецификация языка 
разметки 


ХО (Ехесиіоп Ой) — исполнительный блок 
АЛУ — арифметико-логическое устройство 
АЦП — аналого-цифровой преобразователь 
БИХ — бесконечная импульсная характеристика 
БПФ — быстрое преобразование Фурье 

ВФУ — векторное функциональное устройство 
ГПУ — графическое периферийное устройство 
ИИ — искусственный интеллект 

КБ — килобайт 

КИХ — конечная импульсная характеристика 
КМОП — комплиментарный металл-оксид-полупроводник 
ОЗУ — оперативное запоминающее устройство 
ОС — операционная система 

ПЗУ — постоянное запоминающее устройство 


ПК — персональный компьютер 
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РОН — регистр общего назначения 


САПР — система автоматизированного проектирования 
СБИС — сверхбольшая интегральная схема 

СУБД — система управления базами данных 

ФАПЧ — фазовая автоподстройка частоты 

ФУ — функциональное устройство 

ЦАП — цифроаналоговый преобразователь 

ЦПС — цифровой сигнальный процессор 


ЭВМ — электронно-вычислительная машина 
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